Neue Logit‑Intervention steuert LLMs ohne Training – bis zu 47 % Genauigkeit
Ein neu entwickeltes Verfahren ermöglicht es, Sprachmodelle (LLMs) bereits während der Inferenz zu steuern, ohne dass dafür zusätzliche Trainingsschritte nötig sind. Durch gezielte Logit‑Interventionen kann das Modell seine Ausgabe präzise an gewünschte Eigenschaften anpassen, etwa an Schreibstil, Formalität oder Toxizität.
Derzeit dominieren zwei Ansätze die Steuerung von LLMs: prompt‑basierte Methoden, die oft ungenau und schwer feinabstimmbar sind, sowie aktivierungsbasierte Techniken, die tiefen Zugriff auf interne Modellschichten erfordern. Beide haben ihre Grenzen, wenn es um konsistente und granulare Kontrolle geht.
Die neue Methode nutzt eine statistische Token‑Score‑Tabelle, die aus z‑normalisierten Log‑Odds eines gelabelten Korpus abgeleitet wird. Durch das gezielte Verschieben der Logit‑Verteilung während der Decodierung werden die Wahrscheinlichkeiten für gewünschte Tokens erhöht, während unerwünschte Tokens gedämpft werden. Dieser Ansatz ist trainingsfrei und kann sofort in bestehenden Modellen eingesetzt werden.
In umfangreichen Tests auf drei unterschiedlichen Datensätzen – Schreibkomplexität, Formalität und Toxizität – zeigte die Logit‑Steuerung signifikante Verbesserungen. Die Genauigkeit stieg um bis zu 47 % und die F1‑Metrik verbesserte sich um das 50‑fache. Diese Ergebnisse unterstreichen die Vielseitigkeit und die task‑agnostische Natur der Methode.
Die vorgestellte Logit‑Intervention eröffnet neue Möglichkeiten für die sichere und zielgerichtete Nutzung von Sprachmodellen in spezialisierten Anwendungen. Durch die Kombination von hoher Kontrolle, einfacher Implementierung und beeindruckenden Leistungssteigerungen könnte sie einen wichtigen Schritt in Richtung verantwortungsbewusster KI‑Entwicklung darstellen.