TSPO: Lösung des Homogenisierungs-Dilemmas bei mehrstufiger Suchoptimierung
In der neuesten Veröffentlichung auf arXiv wird ein bahnbrechender Ansatz vorgestellt, der das langjährige Problem der „Double Homogenization“ in der Multi‑Turn‑Search‑Policy‑Optimierung löst. Durch die Integration von Werkzeugen in den Denkprozess können große Sprachmodelle (LLMs) komplexe Aufgaben iterativ lösen – doch bisherige Reinforcement‑Learning‑Frameworks belohnen nur selten das Endergebnis. Das führt zu zwei Arten von Homogenisierung: erstens wird der eigentliche Denk‑ und Tool‑Prozess ignoriert, zweitens führt die grobe, gruppenweite Belohnung zu ineffizienter Schätzung der Vorteile innerhalb einer Gruppe.
Der neue Ansatz, Turn‑level Stage‑aware Policy Optimization (TSPO), führt das First‑Occurrence Latent Reward (FOLR)-Mechanismus ein. Dabei wird ein Teil der Belohnung dem Schritt zugeordnet, in dem die korrekte Antwort erstmals erscheint. Dadurch bleiben Prozess‑Signals erhalten und die Belohnungsvarianz innerhalb der Gruppen steigt, ohne dass externe Reward‑Modelle oder zusätzliche Annotationen nötig sind.
Umfangreiche Experimente zeigen, dass TSPO die aktuellen Spitzenrechner deutlich übertrifft. Auf den Modellen Qwen2.5‑3B und Qwen2.5‑7B wurden durchschnittliche Leistungssteigerungen von 24 % bzw. 13,6 % erzielt – ein klarer Durchbruch für die Optimierung von mehrstufigen Such‑ und Denkprozessen in LLMs.