Agent-Omit: Training von LLM-Agenten zur adaptiven Auslassung von Gedanken

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Veröffentlichung aus Hongkong und Hongkong präsentiert Agent‑Omit, ein Trainingsframework, das große Sprachmodelle (LLM) dazu befähigt, während mehrtägiger Agent‑Umwelt-Interaktionen unnötige Gedanken und Beobachtungen gezielt auszuschließen. Durch diese adaptive Auslassung soll die Effizienz der Agenten gesteigert werden, ohne die Leistungsfähigkeit zu beeinträchtigen.

Derzeit behandeln bestehende Ansätze sämtliche Interaktionsschritte gleich, obwohl die Notwendigkeit von Gedanken und der Nutzen von Beobachtungen stark variieren. Die Autoren führten quantitative Analysen durch, die zeigen, wie sich unterschiedliche Auslassungsstrategien auf die Effektivität und Effizienz der Agenten auswirken. Diese Erkenntnisse bilden die Basis für die Entwicklung von Agent‑Omit.

Agent‑Omit kombiniert ein kleines Cold‑Start‑Datenset, das sowohl Ein‑ als auch Mehrturn‑Auslassungsszenarien enthält, mit einem feinabgestimmten Modell, das gezielt Auslassungsverhalten lernt. Anschließend wird ein agentic Reinforcement‑Learning‑Ansatz eingesetzt, der einen dualen Sampling‑Mechanismus und eine speziell entwickelte Auslassungsbelohnung nutzt. Theoretisch wird die Abweichung der Auslassungs­politik durch die KL‑Divergenz begrenzt, was die Stabilität des Lernprozesses unterstützt.

In Experimenten auf fünf Agenten‑Benchmarks zeigte sich, dass das 8‑Billionen‑Parameter‑Modell Agent‑Omit vergleichbare Leistungen wie sieben führende LLM‑Agenten erzielt, gleichzeitig jedoch die beste Balance zwischen Effektivität und Effizienz erreicht. Der komplette Code und die Datensätze sind unter https://github.com/usail-hkust/Agent-Omit verfügbar.

Ähnliche Artikel