HELIX: Manifold‑Steering reduziert Halluzination bei quantisierten LLMs

Kernaussagen

Das nimmst du aus dem Beitrag mit

In der Welt der quantisierten Sprachmodelle besteht ein klassisches Dilemma: Bei niedrigen Sampling‑Temperaturen entstehen wiederholende, modenkollabierte Ausgaben, währ…
Das neue Verfahren HELIX löst dieses Problem, indem es die Entropie von der Halluzination trennt und die versteckten Zustände an einen vorab berechneten Wahrheits‑Manifo…
HELIX berechnet einen Unified Truth Score (UTS), der die token‑weise semantische Entropie mit dem Mahalanobis‑Abstand zum Manifold kombiniert.

In der Welt der quantisierten Sprachmodelle besteht ein klassisches Dilemma: Bei niedrigen Sampling‑Temperaturen entstehen wiederholende, modenkollabierte Ausgaben, während bei hohen Temperaturen (T > 2,0) die Trajektorien divergieren und die Semantik zusammenbricht. Das neue Verfahren HELIX löst dieses Problem, indem es die Entropie von der Halluzination trennt und die versteckten Zustände an einen vorab berechneten Wahrheits‑Manifold anheftet.

HELIX berechnet einen Unified Truth Score (UTS), der die token‑weise semantische Entropie mit dem Mahalanobis‑Abstand zum Manifold kombiniert. Sobald der UTS einen Divergenz‑Schwellenwert überschreitet, werden graduell Steer‑Vektoren eingesetzt, die die Aktivierungen in strukturell kohärente Regionen lenken – und das betrifft lediglich 0,2 % bis 2,5 % der Tokens.

Auf dem 4‑Bit‑quantisierten Granite 4.0 H Small (32 B/9 B aktiv, hybrid Mamba‑Transformer) erzielte HELIX bei GSM8K eine Genauigkeit von 88,84 % bei T = 3,0, was nur 2,81 pp schlechter ist als bei T = 0,5. Für MMLU blieben 72,49 % der 14 042 Fragen korrekt, ein Rückgang von lediglich 1,24 pp. Diese Ergebnisse zeigen, dass die Halluzination bei hohen Temperaturen vor allem auf Trajektorien‑Divergenz zurückzuführen ist und nicht auf semantische Kollaps.

Die geometrische Tethering‑Methode erfordert lediglich das Steuern von etwa 10 % der Transformer‑Attention‑Schichten, um die Drift im Mamba‑2‑State‑Space zu korrigieren. Dadurch bleibt die Modellarchitektur weitgehend unverändert, während die Ausgaben deutlich stabiler werden.

Ein weiterer Befund ist die Entdeckung eines bislang verdeckten „High‑Entropy Creative Reservoir“. Bei T > 2,0 zeigen steuerte Ausgaben nur 5 % bis 20 % Ideen‑Duplikation, im Vergleich zu 70 % bis 80 % bei konservativen Einstellungen. Die Validierung auf einer anderen Architektur, Qwen3‑30B‑A3B MOE, bestätigt die Architekturunabhängigkeit: die einzigartige Konzeptgenerierung steigt um 46,7 %.

HELIX fungiert somit als syntaktischer Tether, der die Exploration von hoch‑temperatur‑getriebenen, aber dennoch kohärenten Ausgaben ermöglicht und damit einen wichtigen Schritt zur sicheren Nutzung quantisierter LLMs darstellt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?

Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Start

Zum KI-Archiv

Gehe von dieser Meldung in Themen, Analysen und weitere News, um ein belastbareres Gesamtbild aufzubauen.

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

🍪 Cookie-Einstellungen