Preference Orchestrator: Prompt-bewusste Multi-Objektiv-Ausrichtung für LLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fortschritte in vielen NLP-Aufgaben erzielt. Doch die Herausforderung, diese Modelle gleichzeitig an unterschiedliche menschliche Präferenzen für mehrere Ziele anzupassen, bleibt ein zentrales Hindernis für den praktischen Einsatz.

Derzeit setzen Multi-Objective‑Alignment‑Methoden auf manuell festgelegte Präferenzgewichte. Diese Vorgehensweise belastet die Nutzer mit komplizierten Spezifikationsaufgaben und führt zu ineffizientem Training, weil das Modell unnötige Präferenzkombinationen erkundet.

Um diese Probleme zu lösen, wurde der Preference Orchestrator (PRO) entwickelt. PRO nutzt einen schlanken Präferenzadapter, der während Training und Einsatz automatisch prompt-spezifische Gewichte ermittelt. Dabei werden normalisierte Belohnungsscores mehrerer Reward‑Modelle für bevorzugte Antworten verwendet, was eine effektive Balance der Ziele gewährleistet. Theoretische Analysen zeigen, dass dieser prompt‑bewusste Ansatz die Leistung gegenüber festen Gewichten deutlich verbessert. Umfangreiche Experimente auf verschiedenen Aufgaben belegen die Überlegenheit von PRO gegenüber bestehenden Multi‑Objective‑Alignment‑Methoden.

Ähnliche Artikel