Tja, das wird keinen Sinn machen. Wie gesagt, geht es bei RL erst einmal nicht darum, ein NN zu trainieren. Es ist auch nicht ein NN, das Dir Deine Ergebnisse (also Aktionen) liefert, sondern ein 'Agent' dessen Ablauf man als Programm implementieren muss. Dieser Agent kann aber intern NNs nutzen, um Funktionen zu approximieren, die ihm z.B. den Wert jeder Aktion aus einer bestimmten Situation heraus liefern. Die Daten, um diese (als NN implementierten) Funktionsapproximationen zu trainieren erhält der Agent direkt von seiner Umgebung, während er diese 'erkundet' (in dem er Aktionen ausführt und sich merkt was jeweils geschieht).Seppy wrote:Wie wird die SW-Lösung aussehen ?
Wird das ein eigener Teacher (Wäre super) ?
Seppy wrote:Muß man alles selbst als Script schreiben, wenn ja, wie ?
Da bin ich auch noch am Nachdenken. Es gibt so viele Varianten von RL-Methoden, die je nach Problemstellung Vor- bzw. Nachteile haben, dass ein allgemeingültiges Programm wahrscheinlich nur schwer zu erstellen ist. Eine Möglichkeit wäre vielleicht eine eigene Anwendung, die RL implementiert und bei der man die Interaktion mit der jeweiligen 'Umwelt' über Skriptfunktionen implementieren könnte. Also eine Art 'RL Entwicklungsengine'. Diese könnte widerum NNs nutzen, die in MemBrain erstellt wurden (z.B., in dem sie die MemBrain DLL verwendet).
Sind aber alles noch sehr schwammige Gedanken, ich werde hier noch viel Zeit benötigen, um zu sehen, was Sinn macht und was möglich ist.