AIRL‑S vereint RL und Such‑basierte TTS – neue Methode verbessert Leistung um 9 %
Die Optimierung von Test‑Time‑Scaling‑Modellen (TTS) für große Sprachmodelle (LLMs) hat sich bislang in zwei stark getrennte Ansätze aufgespalten: Reinforcement‑Learning‑Methoden, die mit spärlichen, ergebnisbasierten Belohnungen arbeiten, und suchbasierte Techniken, die auf statischen Prozess‑Reward‑Modellen (PRMs) beruhen. Beide Ansätze haben jedoch gravierende Schwächen – RL leidet unter Instabilität und geringer Stichproben‑Effizienz, während suchbasierte Verfahren teure, manuell oder LLM‑generierte Labels benötigen und bei Verteilungssprüngen oft versagen.