Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität
In der Welt der großen Sprachmodelle (LLMs) werden Rubriken zunehmend eingesetzt, um Urteilsalgorithmen bei der Bewertung subjektiver, mehrdimensionaler menschlicher Präferenzen zu unterstützen. Trotz ihres Potenzials bleiben die automatisierte Erstellung und Kontrolle dieser Rubriken problematisch: Sie decken oft nicht alle relevanten Aspekte ab, vermischen unterschiedliche Dimensionen, weisen falsche Präferenzrichtungen auf und enthalten redundante oder stark korrelierende Kriterien, was die Genauigkeit der Urteilsmodelle mindert und zu suboptimalen Belohnungssignalen bei der Verstärkungsoptimierung führt.