AIRL‑S vereint RL und Such‑basierte TTS – neue Methode verbessert Leistung um 9 %
Die Optimierung von Test‑Time‑Scaling‑Modellen (TTS) für große Sprachmodelle (LLMs) hat sich bislang in zwei stark getrennte Ansätze aufgespalten: Reinforcement‑Learning‑Methoden, die mit spärlichen, ergebnisbasierten B…