InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens InfoReasoner zeigt, wie große Sprachmodelle ihre Fähigkeit zur aktiven Informationssuche verbessern können. Durch die Einführung einer synthetischen Belohnung, die den semantischen Informationsgewinn misst, wird das Modell dazu angeregt, gezielt nach relevanten Daten zu suchen und dadurch sein Wissen zu erweitern.

Die Autoren definieren den Informationsgewinn neu als Reduktion der Unsicherheit in den Glaubenszuständen des Modells. Diese Definition liefert theoretische Garantien wie Nichtnegativität, telescopische Additivität und Kanalmonotonie, die die Stabilität und Vorhersagbarkeit des Lernprozesses erhöhen.

Um die Optimierung ohne manuelle Annotationen skalierbar zu gestalten, wird ein output‑bewusster intrinsischer Schätzer eingesetzt. Dieser berechnet den Informationsgewinn direkt aus den Ausgabewahrscheinlichkeiten des Modells, indem semantische Cluster mittels bidirektionaler Textual Entailment gebildet werden. Das Ergebnis ist ein intrinsisches Belohnungssignal, das die Policy dazu antreibt, epistemische Fortschritte zu maximieren.

Die Trainingsstrategie basiert auf Group Relative Policy Optimization (GRPO), die es ermöglicht, die Policy effizient zu verbessern. In umfangreichen Experimenten auf sieben Frage‑Antwort‑Benchmarks konnte InfoReasoner die Leistung gegenüber starken Retrieval‑Augmented‑Baselines um bis zu 5,4 % durchschnittlich steigern.

Das Ergebnis liefert einen theoretisch fundierten und praktisch skalierbaren Ansatz für agentisches Denken mit Retrieval und eröffnet neue Möglichkeiten für die Entwicklung intelligenter Systeme, die eigenständig Wissen suchen und anwenden können.

Ähnliche Artikel