Neues Benchmark RealPref prüft, wie LLMs langfristig Nutzerpräferenzen folgen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs) werden immer häufiger als persönliche Assistenten eingesetzt, wobei Nutzer ihre komplexen und vielfältigen Präferenzen über längere Interaktionen hinweg teilen. Doch bislang fehlt ein systematischer Ansatz, um zu prüfen, wie gut LLMs diese Präferenzen in realistischen, langfristigen Szenarien nachvollziehen können.

Das neue Benchmark „RealPref“ bietet hierfür eine umfassende Lösung. Es umfasst 100 Nutzerprofile, 1 300 personalisierte Präferenzen und vier unterschiedliche Ausdrucksformen – von explizit bis implizit – sowie Interaktionsverläufe mit langer Historie. Damit deckt RealPref die Vielfalt realer Nutzerinteraktionen ab.

Zur Bewertung werden drei Fragetypen eingesetzt: Multiple‑Choice, Wahr‑oder‑Falsch und offene Fragen. Für jede Frageart existieren detaillierte Rubriken, die es ermöglichen, LLMs als „Richter“ zu nutzen und die Antworten objektiv zu bewerten.

Die ersten Ergebnisse zeigen, dass die Leistung von LLMs deutlich abnimmt, wenn die Kontextlänge zunimmt und die Präferenzausdrücke weniger explizit sind. Darüber hinaus stellen die Generalisierung von Nutzerpräferenzen auf unbekannte Szenarien zusätzliche Herausforderungen dar.

RealPref liefert damit eine solide Basis für zukünftige Forschungsarbeiten, die darauf abzielen, LLM‑Assistenten besser an individuelle Bedürfnisse anzupassen. Der zugehörige Code ist frei verfügbar unter https://github.com/GG14127/RealPref.

Ähnliche Artikel