Neues RL-Framework PRISMA verbessert Fragebeantwortung in RAG-Systemen
In einem bedeutenden Fortschritt für Retrieval-Augmented Generation (RAG) hat das Forschungsteam PRISMA vorgestellt, ein neues Reinforcement-Learning‑gesteuertes Framework, das die Beantwortung komplexer, mehrstufiger Fragen über riesige Korpora optimiert.
Die Herausforderung besteht darin, dass herkömmliche RAG‑Modelle bei iterativen Suchschritten häufig die entscheidenden Zwischenergebnisse – die sogenannten „Brückenbeweise“ – nicht finden und dadurch die nachfolgende Logik zusammenbrechen. Gleichzeitig leiden end‑to‑end‑Trainingsprozesse unter schwacher Kreditzuweisung entlang der Beweisketten, was zu Überanpassung an spezifische Benchmarks und Instabilität führt.
PRISMA begegnet diesen Problemen mit einer Plan‑Retrieve‑Inspect‑Solve‑Memoize‑Architektur. Der „Inspector“ liefert auf Basis von Beweislogik Feedback, um die Aufteilung des „Planners“ zu verfeinern und die Retrieval‑Präzision zu erhöhen. Gleichzeitig sorgt der „Solver“ für evidenzbasierte Argumentation, während die „Memoize“-Komponente gesammelte Erkenntnisse speichert und wiederverwendet.
Zur Feinabstimmung der einzelnen Agenten nutzt PRISMA eine zweistufige Policy‑Optimierung. In Phase I werden Planner und Solver als spezialisierte Experten für Planung und Logik kalibriert. Phase II setzt Observation‑Aware Residual Policy Optimization (OARPO) ein, um die Verifizierungsfähigkeit des Inspectors zu stärken und Kontextfehler frühzeitig zu erkennen.
Durch diese modulare, lernstabile Struktur zeigt PRISMA verbesserte Leistungen bei realen, mehrstufigen Fragen und erhöht die Übertragbarkeit auf unterschiedliche Datensätze. Der Ansatz demonstriert, dass gezielte, reasoning‑gesteuerte Zusammenarbeit zwischen Agenten die Grenzen herkömmlicher RAG‑Modelle sprengen kann.