Forschung arXiv – cs.AI

InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion

In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhalte…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen.
  • Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhaltenen Antworten in ihre nächsten Sc…
  • Aktuelle Multi‑Turn‑RL‑Ansätze, die auf Trajektorien‑Level‑Belohnungen setzen, leiden unter Problemen bei der Zuordnung von Belohnungen zu einzelnen Interaktionsschritte…

In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhaltenen Antworten in ihre nächsten Schritte einfließen lassen.

Aktuelle Multi‑Turn‑RL‑Ansätze, die auf Trajektorien‑Level‑Belohnungen setzen, leiden unter Problemen bei der Zuordnung von Belohnungen zu einzelnen Interaktionsschritten. Dadurch erhalten die Agenten schwache Signalstärken, die das Lernen behindern.

InfoPO (Information‑Driven Policy Optimization) löst dieses Problem, indem es jede Interaktion als aktiven Prozess der Unsicherheitsreduktion betrachtet. Für jeden Frage‑Antwort‑Schritt wird ein Informationsgewinn‑Reward berechnet, der die Veränderung der Aktionsverteilung des Agenten im Vergleich zu einer „masked‑feedback“‑Kontrafaktik misst. Dieser Reward wird anschließend mit dem eigentlichen Aufgaben‑Ergebnis über eine adaptive, variancengesteuerte Fusion kombiniert, um die Bedeutung einzelner Informationsschritte zu gewichten, ohne die Zielausrichtung zu verlieren.

In einer Vielzahl von Aufgaben – von Intent‑Klärung über kollaboratives Coden bis hin zu tool‑unterstützter Entscheidungsfindung – übertrifft InfoPO sowohl klassische Prompting‑Methoden als auch bestehende Multi‑Turn‑RL‑Baselines. Die Methode bleibt robust gegenüber Änderungen im Nutzer‑Simulator und generalisiert erfolgreich auf Aufgaben, die eine Interaktion mit der Umgebung erfordern.

Der komplette Code ist frei verfügbar unter https://github.com/kfq20/InfoPO.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.