MulFeRL: Verstärktes RL durch verbale Rückmeldungen in Mehrfachschleifen
Das neu veröffentlichte Verfahren MulFeRL kombiniert Verstärkendes Lernen mit strukturiertem verbalen Feedback, um die Leistungsfähigkeit von Modellen in komplexen Aufgaben zu steigern. Durch die Einbindung von Rückmeldungen, die über reine numerische Belohnungen hinausgehen, kann das System gezielt an den Stellen lernen, an denen es zuvor versagt hat.
Traditionelle RLVR-Methoden (Verstärkendes Lernen mit verifizierbaren Belohnungen) setzen auf skalare, ergebnisbasierte Belohnungen. Diese Signale sind häufig spärlich und geben bei fehlgeschlagenen Versuchen kaum Aufschluss darüber, warum das Modell scheitert. MulFeRL adressiert dieses Problem, indem es reichhaltigere verbale Hinweise nutzt, die dem Lernprozess zusätzliche Kontextinformationen liefern.
Das System arbeitet in drei Schritten: Erstens wird bei fehlgeschlagenen Versuchen eine dynamische Mehrfachschleifen-Regeneration ausgelöst, die das Modell erneut durch die Problemstellung führt. Zweitens werden zwei ergänzende Lernsignale erzeugt – eines für die Optimierung innerhalb einer einzelnen Schleife und eines für die Optimierung über mehrere Schleifen hinweg. Drittens wird das verbale Feedback strukturiert in den Denkprozess des Modells eingespeist, sodass es die Rückmeldungen aktiv nutzen kann.
In Experimenten mit dem OpenR1‑Math-Datensatz übertrifft MulFeRL sowohl die klassische Methode des überwachten Feintunings als auch herkömmliche RLVR‑Baselines. Darüber hinaus zeigt das Verfahren eine robuste Generalisierung auf Aufgaben außerhalb des Trainingsdatensatzes, was auf eine verbesserte Fähigkeit zur Übertragung von Wissen hinweist.