Re: Neuronale Netze zur Folgeregelung
Posted: Sat 13. Jun 2009, 08:44
Hallo Thomas,
ich habe mir jetzt nochmal Gedanken darüber gemacht ob RL für meine spezielle Problematik überhaupt geeignet ist. Ich habe bis jetzt sehr viele Beispiele gelesen von Robotern oder ähnlichem, die mit RL trainiert wurden. Allerdings ist mir immer eine Sache aufgefallen, und zwar sind die gesteuerten Systeme/Roboter für sich unveränderlich. Genau das ist bei mir nicht der Fall...für jeden Einlagerungsvorgang habe ich einen anderen Parametersatz. Der Einfachheit halber, sagen wir mal der einzige Parameter, der sich verändert, sei die Masse (Das ist auch der tatsächliche Haupteinflussfaktor).
Gehen wir mal weiter davon aus, dass die Kombination zw. NN und RL darin besteht, die für RL notwendigen Funktionen (Policy, Return, Valuefktn) durch NN zu approximieren.
Wenn ich jetzt mit dem Training beginne, denke ich dabei an folgendes Vorgehen:
Sei meine einzulagernde Masse m1. Dann trainiere ich meine NN solange bis sie die RL-Funktionen bestmöglich approximieren, sodass das RBG eine optimale Trajektorie verfährt und nicht/kaum in Schwingungen gerät. Für die entsprechende Masse m1 hat mein Agent also nun gelernt, die optimale Trajektorie zu verfahren.
Das ganze kann ich nun mit beliebig vielen weiteren Massen machen, sodass ich für die entsprechenden Massen die dazugehörigen RL-Funktionen approximiere.
Aber jetzt stelle ich mir die Frage, ob der Agent irgendwann anfängt zu generalisieren oder ob ich für jede neue Masse, meine Netze erneut trainieren, d.h. die entsprechenden RL-Funktionen approximieren muss? Also wie reagiert der Agent, nachdem er gelernt hat für mehrere Massen die optimale Trajektorie zu verfahren, auf eine neue noch nicht "erlernte Masse"? Weil die Sache ist doch die, dass die eigentliche Generalisierung doch schon in der Approximation der RL-Funktionen durch das NN steckt. Aber die RL-Funktionen für eine Masse bringen mir ja dann nichts mehr für einen anderen Beladungszustand, oder doch?
Ich weiß, das klingt jetzt etwas verwirrend...ich hoffe, ich hab mich einigermaßen verständlich ausgedrückt
Grüße,
Florian
ich habe mir jetzt nochmal Gedanken darüber gemacht ob RL für meine spezielle Problematik überhaupt geeignet ist. Ich habe bis jetzt sehr viele Beispiele gelesen von Robotern oder ähnlichem, die mit RL trainiert wurden. Allerdings ist mir immer eine Sache aufgefallen, und zwar sind die gesteuerten Systeme/Roboter für sich unveränderlich. Genau das ist bei mir nicht der Fall...für jeden Einlagerungsvorgang habe ich einen anderen Parametersatz. Der Einfachheit halber, sagen wir mal der einzige Parameter, der sich verändert, sei die Masse (Das ist auch der tatsächliche Haupteinflussfaktor).
Gehen wir mal weiter davon aus, dass die Kombination zw. NN und RL darin besteht, die für RL notwendigen Funktionen (Policy, Return, Valuefktn) durch NN zu approximieren.
Wenn ich jetzt mit dem Training beginne, denke ich dabei an folgendes Vorgehen:
Sei meine einzulagernde Masse m1. Dann trainiere ich meine NN solange bis sie die RL-Funktionen bestmöglich approximieren, sodass das RBG eine optimale Trajektorie verfährt und nicht/kaum in Schwingungen gerät. Für die entsprechende Masse m1 hat mein Agent also nun gelernt, die optimale Trajektorie zu verfahren.
Das ganze kann ich nun mit beliebig vielen weiteren Massen machen, sodass ich für die entsprechenden Massen die dazugehörigen RL-Funktionen approximiere.
Aber jetzt stelle ich mir die Frage, ob der Agent irgendwann anfängt zu generalisieren oder ob ich für jede neue Masse, meine Netze erneut trainieren, d.h. die entsprechenden RL-Funktionen approximieren muss? Also wie reagiert der Agent, nachdem er gelernt hat für mehrere Massen die optimale Trajektorie zu verfahren, auf eine neue noch nicht "erlernte Masse"? Weil die Sache ist doch die, dass die eigentliche Generalisierung doch schon in der Approximation der RL-Funktionen durch das NN steckt. Aber die RL-Funktionen für eine Masse bringen mir ja dann nichts mehr für einen anderen Beladungszustand, oder doch?
Ich weiß, das klingt jetzt etwas verwirrend...ich hoffe, ich hab mich einigermaßen verständlich ausgedrückt

Grüße,
Florian