Benchmark-Alignment für Sprachmodelle: Präferenzbasierte Bewertung
In einer wegweisenden Studie wird gezeigt, wie man die gängigen Leistungsbenchmarks von Sprachmodellen an echte Nutzerpräferenzen anpassen kann. Durch die gezielte Nutzung von nur wenigen Leistungsdaten wird ein Verfahren entwickelt, das bestehende Benchmarks automatisch aktualisiert und so neue, statische Testsets erzeugt, die die Paarpräferenzen von Modellen in konkreten Anwendungsszenarien vorhersagen.
Die Autoren stellen BenchAlign vor – die erste Lösung, die gewichtete Benchmark-Fragen anhand der Frage‑Level‑Leistung von Modellen sowie von Ranglisten von Modellpaaren, die während des Einsatzes gesammelt werden, lernt. Das Ergebnis sind neue Benchmarks, die bisher unbekannte Modelle exakt nach den gewünschten Präferenzen ordnen.
Experimentelle Ergebnisse belegen, dass die angepassten Benchmarks Modelle zuverlässig nach menschlichen Vorlieben bewerten, selbst wenn die Modelle in unterschiedlichen Größenordnungen vorliegen. Gleichzeitig bleiben die Ergebnisse interpretierbar, was die Nachvollziehbarkeit der Bewertungsergebnisse stärkt.
Diese Arbeit liefert wichtige Erkenntnisse darüber, wie Benchmarks mit praktischen Nutzerpräferenzen in Einklang gebracht werden können, und ebnet damit den Weg für eine schnellere Entwicklung von Sprachmodellen, die tatsächlich nützliche Leistungen erbringen.