InfoPO: Optimierung von Agenten durch informationsbasierte Interaktion
In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhalte…
- In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen.
- Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhaltenen Antworten in ihre nächsten Sc…
- Aktuelle Multi‑Turn‑RL‑Ansätze, die auf Trajektorien‑Level‑Belohnungen setzen, leiden unter Problemen bei der Zuordnung von Belohnungen zu einzelnen Interaktionsschritte…
In der Praxis liefern Nutzer*innen von LLM‑Agenten häufig unvollständige Anfragen. Damit die Agenten dennoch korrekte Entscheidungen treffen können, müssen sie gezielt nach fehlenden Informationen fragen und die erhaltenen Antworten in ihre nächsten Schritte einfließen lassen.
Aktuelle Multi‑Turn‑RL‑Ansätze, die auf Trajektorien‑Level‑Belohnungen setzen, leiden unter Problemen bei der Zuordnung von Belohnungen zu einzelnen Interaktionsschritten. Dadurch erhalten die Agenten schwache Signalstärken, die das Lernen behindern.
InfoPO (Information‑Driven Policy Optimization) löst dieses Problem, indem es jede Interaktion als aktiven Prozess der Unsicherheitsreduktion betrachtet. Für jeden Frage‑Antwort‑Schritt wird ein Informationsgewinn‑Reward berechnet, der die Veränderung der Aktionsverteilung des Agenten im Vergleich zu einer „masked‑feedback“‑Kontrafaktik misst. Dieser Reward wird anschließend mit dem eigentlichen Aufgaben‑Ergebnis über eine adaptive, variancengesteuerte Fusion kombiniert, um die Bedeutung einzelner Informationsschritte zu gewichten, ohne die Zielausrichtung zu verlieren.
In einer Vielzahl von Aufgaben – von Intent‑Klärung über kollaboratives Coden bis hin zu tool‑unterstützter Entscheidungsfindung – übertrifft InfoPO sowohl klassische Prompting‑Methoden als auch bestehende Multi‑Turn‑RL‑Baselines. Die Methode bleibt robust gegenüber Änderungen im Nutzer‑Simulator und generalisiert erfolgreich auf Aufgaben, die eine Interaktion mit der Umgebung erfordern.
Der komplette Code ist frei verfügbar unter https://github.com/kfq20/InfoPO.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.