MAVIS: Leichtgewichtiges Alignment für LLMs in Echtzeit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Moderne Sprachmodelle werden immer häufiger in Anwendungen eingesetzt, die gleichzeitig mehrere, oft widersprüchliche Ziele erfüllen müssen – etwa Hilfsbereitschaft, Sicherheit und Humor. Um die Ausgaben an die individuellen Wünsche der Nutzer anzupassen, ist bislang meist ein aufwändiges Feinabstimmen des Modells für jedes Ziel erforderlich.

Die neue Methode namens MAVIS (Multi‑Objective Alignment via Value‑Guided Inference‑Time Search) löst dieses Problem elegant: Sie nutzt ein kleines Set von Wertmodellen, die jeweils ein bestimmtes Ziel repräsentieren. Während der Inferenz werden diese Modelle mit benutzerdefinierten Gewichten kombiniert, um eine „Neigung“-Funktion zu erzeugen, die die Ausgangsverteilung des Basis‑LLMs gezielt in die gewünschte Richtung verschiebt.

Die Wertmodelle werden mit einem einfachen iterativen Verfahren trainiert, das eine monotone Verbesserung der KL‑regularisierten Policy garantiert. In Experimenten übertrifft MAVIS die herkömmlichen Ansätze, bei denen Modelle für jedes Ziel separat feinabgestimmt und anschließend kombiniert werden, und kommt sogar dem idealen Szenario nahe, in dem ein Modell exakt auf die Präferenzen eines Nutzers abgestimmt ist.

Durch die Möglichkeit, das Verhalten eines Sprachmodells ohne Änderungen an den Basisgewichten dynamisch zu steuern, bietet MAVIS einen flexiblen und ressourcenschonenden Ansatz für die Multi‑Objective‑Alignment‑Problematik – ein bedeutender Fortschritt für die praktische Anwendung von LLMs in vielfältigen Kontexten.

Ähnliche Artikel