Forschung arXiv – cs.AI

Interaktive Testzeit-Intervention verbessert Deep Reasoning effizient

Große Denkmodelle (LRMs) sind in der Lage, komplexe Mehrschritt‑Aufgaben zu lösen, leiden jedoch häufig unter ineffizienten Denkprozessen wie Überdenken und Überschießen. Diese Phasen führen zu unnötiger Rechenzeit und…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Große Denkmodelle (LRMs) sind in der Lage, komplexe Mehrschritt‑Aufgaben zu lösen, leiden jedoch häufig unter ineffizienten Denkprozessen wie Überdenken und Überschießen.
  • Diese Phasen führen zu unnötiger Rechenzeit und können die Leistung sogar verschlechtern.
  • Derzeitige effiziente Methoden arbeiten in geschlossenen Schleifen und bieten keine Möglichkeit, den Denkprozess von außen zu steuern.

Große Denkmodelle (LRMs) sind in der Lage, komplexe Mehrschritt‑Aufgaben zu lösen, leiden jedoch häufig unter ineffizienten Denkprozessen wie Überdenken und Überschießen. Diese Phasen führen zu unnötiger Rechenzeit und können die Leistung sogar verschlechtern.

Derzeitige effiziente Methoden arbeiten in geschlossenen Schleifen und bieten keine Möglichkeit, den Denkprozess von außen zu steuern. Mit dem neuen Ansatz Denk‑mit‑Mir wird das Problem angegangen: Durch gezielte Einbindung von externem Feedback während der Testzeit kann der LRM an kritischen Stellen pausieren, bewerten und entscheiden, ob er weiterdenken oder abbrechen soll.

Die Schlüsselidee ist, dass Übergangswörter (z. B. „daher“, „jedoch“, „zunächst“) natürliche Anknüpfungspunkte für Interventionen darstellen. An diesen Stellen wird der LRM angehalten, um eine Bewertung seiner Argumentation hinsichtlich Rationalität und Vollständigkeit zu erhalten – entweder von Menschen oder von Proxy‑LLMs. Auf Basis dieser Rückmeldung entscheidet das Modell, ob es den Denkprozess verlängern oder abbrechen soll.

Um das Modell an dieses interaktive Vorgehen anzupassen, wird Gruppen-relative Politikoptimierung (GRPO) eingesetzt. Die Experimente zeigen, dass Denk‑mit‑Mir eine deutlich bessere Balance zwischen Genauigkeit und Denkzeit erreicht. Auf dem AIME24‑Datensatz übertrifft es QwQ‑32B um 7,19 % in der Genauigkeit und reduziert die durchschnittliche Denkzeit um 81 % bei einer 8 K‑Fenstergröße.

Der Ansatz demonstriert, dass gezielte, testzeitbasierte Interventionen die Effizienz von Deep‑Reasoning‑Modellen erheblich steigern können, ohne die Genauigkeit zu opfern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LRM
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Denk-mit-Mir
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
externe Rückmeldung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen