EAPO: Neue RL-Methode verbessert Langkontext-Logik durch Beweisoptimierung
In der Welt der großen Sprachmodelle (LLM) hat sich das Reinforcement Learning (RL) als kraftvolles Werkzeug erwiesen, um die Fähigkeit zur logischen Argumentation zu steigern. Doch bei Szenarien mit langen Kontexten stößt die Technik an eine entscheidende Grenze: die Belohnungen für das Ergebnis sind zu selten, sodass das Modell oft „glückliche Vermutungen“ trifft, ohne dass die Qualität der gesammelten Beweise überprüft wird.
Um dieses Problem zu lösen, präsentiert das Forschungsteam die Methode EAPO – Evidence-Augmented Policy Optimization. Zunächst wird das neue Paradigma der evidenzgestützten Argumentation eingeführt und durch Tree-Structured Evidence Sampling nachgewiesen, dass die präzise Extraktion von Beweisen der entscheidende Engpass für Langkontext-Logik ist.
EAPO kombiniert einen spezialisierten RL-Algorithmus mit einem Belohnungsmodell, das einen Group-Relative Evidence Reward berechnet. Dieser Ansatz liefert dem Lernprozess kontinuierliche, dichte Feedbacksignale, die die Qualität der Beweise gezielt verbessern. Zusätzlich sorgt ein adaptiver Reward-Policy Co‑Evolution-Mechanismus dafür, dass das Belohnungsmodell während des Trainings anhand von konsistenten Rollouts verfeinert wird, wodurch seine Unterscheidungsfähigkeit schärft und die Prozessführung präziser wird.
Die umfangreichen Tests auf acht unterschiedlichen Benchmarks zeigen, dass EAPO die Leistung bei Langkontext-Reasoning deutlich über den aktuellen Stand der Technik hinaus steigert. Damit eröffnet die Methode neue Perspektiven für die Entwicklung von LLMs, die komplexe, kontextreiche Aufgaben zuverlässig lösen können.