Ich habe gerade nochmal mit Kreatif gesprochen. Und bezüglich der Ampelschaltung haben wir die folgende Überlegung angestellt:TJetter wrote: Ich würde aber, wie bereits einige Posts vorher gesagt, auch eine minimal zulässige Ampelwechselzeit einführen, so dass der Agent nach einem Ampelwechsel zunächst einmal keine Aktion durchführen kann, sondern die Aktion eine gewisse Zeit auf den Zustand einwirken kann. Das sollte den Effekt des Zeitversatzes etwas zähmen.
Beim klassischen MFS wird ja keine Blockabfertigung getätigt, sondern es wird pro "grüne" Ampel eine TT ins Folge-MFE geschleust und die Ampel danach wieder auf "rot" gestellt. Sprich wir haben eine getaktete Abfertigung der TT am Entscheidungspunkt. Daher brauchen wir die Ampelwecheselzeit glaube ich nicht, da das Ziel die Maximierung des Outputs an den Zielsenken ist. Somit bleibt aber das Problem des Zeitversatzes bestehen...
Das müssen wir dann mal noch prüfen. Wobei bei einem einzigen Agenten die Trainingszeit erheblich steigt und es nicht gerade sinnvoll wäre den Agenten erst einmal mehrere Monate zu trainieren. Hier führt wahrscheinlich der Schwarmansatz zu einer schnelleren Lösung, da die Trainingsdaten schneller vorhanden sind. Eventuell kann ja der Reward einfach von Agent zu Agent "vererbt" werden. Auch könnten mehrere Agenten parallel trainiert werden.TJetter wrote:Außerdem steht der Agent in Konkurrenz zu anderen Agenten oder Steuerungsmechanismen, was das Lernen erheblich erschweren könnte. Das würde dann eher dafür sprechen, nur einen Agenten einzusetzen, der alle Ampeln steuert. Letztlich werden aber nur Experimente Klarheit schaffen, denke ich.