Dual-Align: Ein neuer Ansatz zur Kalibrierung von nachtrainierten Sprachmodellen
Die jüngste Veröffentlichung auf arXiv (2601.04277v1) präsentiert Dual-Align, ein innovatives Verfahren zur Kalibrierung von großen Sprachmodellen (LLMs), die nach einer zusätzlichen Trainingsphase – dem sogenannten Post‑Training – ihre Leistung steigern, aber gleichzeitig ihre Vertrauensschätzungen verfälschen.
Post‑Training kann die Genauigkeit von LLMs erheblich verbessern, führt jedoch häufig zu einer systematischen Überbewertung der eigenen Vorhersagen. Bestehende, unüberwachte Post‑hoc‑Methoden versuchen, die Vertrauenswerte eines nachtrainierten Modells (PoLM) an die eines gut kalibrierten, vortrainierten Modells anzupassen. Dabei wird jedoch die dynamische Entwicklung während der Inferenz vernachlässigt.
Die Autoren identifizieren zwei Hauptursachen für Kalibrierungsfehler: Confidence Drift, bei dem die Endvertrauenswerte steigen, obwohl die Zwischenschritte weitgehend konsistent bleiben, und Process Drift, bei dem die internen Entscheidungswege divergieren. Diese Erkenntnisse bilden die Grundlage für Dual-Align.
Dual-Align kombiniert zwei unüberwachte Ausrichtungsstrategien. Zunächst wird die Endvertrauensverteilung angepasst, um Confidence Drift zu korrigieren. Anschließend wird der Punkt im Modell identifiziert, an dem die Inferenzpfade auseinandergehen, und die Stabilität der folgenden Schichten neu ausgerichtet, um Process Drift zu beheben. Beide Schritte werden durch einen einzigen Temperaturparameter gesteuert, der gleichzeitig beide Drift‑Typen korrigiert, ohne die Leistungsgewinne des Post‑Trainings zu beeinträchtigen.
Experimentelle Ergebnisse zeigen, dass Dual-Align die Kalibrierungsfehler konsistent reduziert und die Modelle näher an die Leistung eines überwachten Orakels bringt. Der Ansatz demonstriert, dass eine gezielte, dynamische Ausrichtung die Vertrauensschätzungen von LLMs nachhaltig verbessern kann, ohne die erzielten Leistungssteigerungen zu verlieren.