ECHO: Dynamische Kritiker für stabileres Agentenlernen in offenen Welten
In der Welt der Verstärkungslernen-Modelle hat sich die Kritik-basierte Lernmethode als besonders wirkungsvoll erwiesen, indem sie spärliche Ergebnisbelohnungen mit natürlicher Sprachfeedback ergänzt. Traditionell beruhen die Kritiker jedoch auf statischen oder offline trainierten Modellen, die nicht mit der sich wandelnden Politik des Agenten Schritt halten können. Dadurch werden die Rückmeldungen im Laufe der Zeit veraltet und verlieren an Nutzen.