RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit
Eine neue Technik namens RoBoN (Routed Online Best‑of‑n) ermöglicht es, mehrere große Sprachmodelle (LLMs) gleichzeitig zu nutzen, um die Genauigkeit von Antworten zu erhöhen. Im Gegensatz zu herkömmlichen Best‑of‑n‑Ansätzen, die nur ein einzelnes Modell einsetzen, routet RoBoN die Generierung von Texten sequentiell durch eine Auswahl von Modellen. Dabei werden die Antworten anhand von Belohnungsmodellen und Übereinstimmungs‑Signalen bewertet, um das nächste Modell zu bestimmen.
RoBoN erfordert keine zusätzliche Trainingsphase, behält die Rechenkosten bei und kann mit jedem vorhandenen Belohnungsmodell kombiniert werden. Auf einer Reihe von Rechen‑ und Logik‑Benchmarks – darunter MATH500, OlympiadBench, MinervaMath, GSM8K und MMLU – übertrifft RoBoN die herkömmliche Best‑of‑n‑Methode, wenn die Anzahl der getesteten Modelle größer ist. Die Genauigkeitsgewinne liegen bis zu 3,4 % über die einzelnen Modelle hinaus und übersteigen sogar ein gleichmäßiges Multi‑Model‑Portfolio.
Die Ergebnisse zeigen, dass die Vielfalt der Modelle bei der Inferenz ausgenutzt werden kann, um die Leistung von Best‑of‑n zu steigern. RoBoN bietet damit einen einfachen, trainingsfreien Weg, um die Skalierung von LLMs im Testzeitbetrieb zu verbessern.