Interaktive Testzeit-Intervention verbessert Deep Reasoning effizient

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Große Denkmodelle (LRMs) sind in der Lage, komplexe Mehrschritt‑Aufgaben zu lösen, leiden jedoch häufig unter ineffizienten Denkprozessen wie Überdenken und Überschießen. Diese Phasen führen zu unnötiger Rechenzeit und können die Leistung sogar verschlechtern.

Derzeitige effiziente Methoden arbeiten in geschlossenen Schleifen und bieten keine Möglichkeit, den Denkprozess von außen zu steuern. Mit dem neuen Ansatz Denk‑mit‑Mir wird das Problem angegangen: Durch gezielte Einbindung von externem Feedback während der Testzeit kann der LRM an kritischen Stellen pausieren, bewerten und entscheiden, ob er weiterdenken oder abbrechen soll.

Die Schlüsselidee ist, dass Übergangswörter (z. B. „daher“, „jedoch“, „zunächst“) natürliche Anknüpfungspunkte für Interventionen darstellen. An diesen Stellen wird der LRM angehalten, um eine Bewertung seiner Argumentation hinsichtlich Rationalität und Vollständigkeit zu erhalten – entweder von Menschen oder von Proxy‑LLMs. Auf Basis dieser Rückmeldung entscheidet das Modell, ob es den Denkprozess verlängern oder abbrechen soll.

Um das Modell an dieses interaktive Vorgehen anzupassen, wird Gruppen-relative Politikoptimierung (GRPO) eingesetzt. Die Experimente zeigen, dass Denk‑mit‑Mir eine deutlich bessere Balance zwischen Genauigkeit und Denkzeit erreicht. Auf dem AIME24‑Datensatz übertrifft es QwQ‑32B um 7,19 % in der Genauigkeit und reduziert die durchschnittliche Denkzeit um 81 % bei einer 8 K‑Fenstergröße.

Der Ansatz demonstriert, dass gezielte, testzeitbasierte Interventionen die Effizienz von Deep‑Reasoning‑Modellen erheblich steigern können, ohne die Genauigkeit zu opfern.

Ähnliche Artikel