Experience‑basierte Anpassung von Inferenzzeit‑Strategien
In einer kürzlich veröffentlichten Studie auf arXiv wird ein neuer Ansatz vorgestellt, der es agentischen KI-Systemen ermöglicht, ihre Problemlösungsstrategien während der Inferenzzeit anhand gesammelter Erfahrungen dynamisch zu verändern. Dieser Fortschritt adressiert ein zentrales Problem der KI-Forschung: bisherige Systeme, die während der Inferenz ein Gedächtnis aktualisieren, können lediglich die Texteingabe anpassen und sind dadurch auf das Ändern von Sampling‑Parametern, Tool‑Konfigurationen oder System‑Prompts beschränkt.
Der vorgeschlagene „Experience‑Guided Reasoner“ (EGuR) nutzt ein LLM‑basiertes Meta‑Strategie‑Modell, das komplette Rechenabläufe generiert – inklusive LLM‑Aufrufen, Tool‑Nutzung, Sampling‑Einstellungen und Kontrolllogik. Durch die Kombination zweier Komponenten, eines Guides, der auf Basis des aktuellen Problems und einer strukturierten Erfahrungs‑Memory mehrere Kandidatenstrategien erzeugt, und eines Consolidators, der Ausführungsfeedback integriert, kann EGuR für jede Aufgabe eine maßgeschneiderte, sofort ausführbare Strategie erstellen.
Die Autoren berichten, dass EGuR auf fünf anspruchsvollen Benchmarks, darunter AIME 2025, 3‑SAT und drei „Big Bench Extra Hard“-Aufgaben, signifikante Leistungsverbesserungen erzielt hat. Die generierten Strategien können zudem zwischengespeichert und bei Bedarf wiederverwendet werden, wodurch Ressourcen gespart und die Effizienz erhöht wird.