Agenten im Co‑Evolution: Fehler als harte Negative nutzen

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die rasante Entwicklung großer Basis‑Modelle hat die Entstehung von spezialisierten Agenten in vielen Bereichen beschleunigt. Dabei bleibt die Leistungsfähigkeit dieser Agenten stark von der Qualität der Trainingsdaten abhängig, und die Erstellung domänenspezifischer Datensätze ist oft teuer und praktisch kaum umsetzbar.

Um dieses Problem zu umgehen, arbeiten Agenten zunehmend selbstständig an ihrer Verbesserung: Sie generieren, verfeinern und trainieren erneut anhand ihrer eigenen Handlungsverläufe. Ein besonders wirkungsvolles Verfahren nutzt Präferenzoptimierung, bei der vorhergesagte Pfade mit wenigen echten Referenzpfaden verglichen werden, sodass Agenten direkt aus ihren eigenen Fehlern lernen. Trotz besserer Ergebnisse als bei klassischem Supervised Fine‑Tuning leiden diese Methoden jedoch unter Überanpassung, weil sie stark auf die eigenen Vorhersagen angewiesen sind.

Die neue Co‑Evolving‑Agents‑Methode führt ein zweites, „Fehler‑Agenten“-Modell ein, das gemeinsam mit dem Zielagenten arbeitet. Der Fehleragent lernt durch Präferenzoptimierung über Fehlpfade, die sowohl vom Zielagenten als auch von sich selbst stammen, und erzeugt so „harte Negative“ – Fehler, die sehr nahe an Erfolg liegen, aber dennoch scheitern. Diese gezielten Negativbeispiele werden in die Optimierung des Zielagenten einbezogen, wodurch die Entscheidungsgrenzen schärfer werden und die Generalisierung deutlich verbessert wird.

Umfangreiche Analysen und Experimente auf Standard‑Benchmarks zeigen, dass das Co‑Evolving‑Agents‑Framework nicht nur die Leistung steigert, sondern auch demonstriert, dass Fehler systematisch in strukturierte und wertvolle Trainingssignale umgewandelt werden können. Diese Erkenntnis eröffnet neue Wege, um Agenten effizienter und robuster zu machen, ohne auf teure, manuell kuratierte Datensätze angewiesen zu sein.

Ähnliche Artikel