PRISM: KI-Algorithmus verbessert Deep-Think-Methoden durch Prozessbelohnungsmodell

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Welt der KI‑gestützten Problemlösung haben Deep-Think‑Methoden gezeigt, dass sie komplexe mathematische und wissenschaftliche Aufgaben meistern können, indem sie große Mengen möglicher Lösungen generieren, verfeinern und zusammenführen. Ein entscheidendes Hindernis blieb jedoch bestehen: Während des Inferenzprozesses fehlt oft ein zuverlässiges Signal, das die Richtigkeit der Lösungen bestätigt. Dieses Fehlen führt dazu, dass tieferes Nachdenken Fehler verstärkt, korrekte, aber seltene Lösungen unterdrückt und zusätzliche Rechenleistung ineffizient nutzt.

Die neue PRISM‑Technologie (Process Reward Model‑Guided Inference) löst dieses Problem, indem sie Schritt‑für‑Schritt‑Verifikation nutzt, um sowohl die Verfeinerung der Kandidatenpopulation als auch die Aggregation der Endlösung zu steuern. PRISM betrachtet jede mögliche Lösung als Teilchen in einem von einem Prozessbelohnungsmodell definierten Energiefeld und formt die Population durch score‑gesteuerte Resampling‑ und stochastische Verfeinerungsschritte neu. Dadurch konzentriert sich die Wahrscheinlichkeit auf qualitativ hochwertigere Überlegungen, während gleichzeitig die Vielfalt erhalten bleibt.

Auf einer Vielzahl von Mathematik‑ und Wissenschafts‑Benchmarks übertrifft PRISM bestehende Deep-Think‑Ansätze. Mit dem Modell gpt‑oss‑20b erzielt es 90,0 % bei AIME25, 75,4 % bei HMMT25 und 71,4 % bei GPQA Diamond – Leistungen, die gleichwertig oder besser sind als die von gpt‑oss‑120b. Die Analyse zeigt, dass PRISM konsistente, richtungsweisende Korrekturen während der Verfeinerung liefert, auch wenn die Ausgangspopulation nur wenige korrekte Kandidaten enthält, und häufig die optimale Balance zwischen Rechenaufwand und Genauigkeit erreicht.