Radial Dispersion Score: Neue Methode zur Unsicherheitsbestimmung in LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) ist es entscheidend, genau zu erkennen, wann ein Modell unsicher ist. Traditionelle Ansätze dafür sind oft kompliziert und bauen auf fragilen semantischen Clustern oder internen Zuständen. Die neue Methode, der Radial Dispersion Score (RDS), bietet eine einfache, parameterfreie und vollständig modellunabhängige Lösung. Sie misst die radialen Streuungen der von einem Modell generierten Stichproben im Einbettungsraum.

Ein leichtgewichtiger, probabilitätsgewichteter Variantenansatz nutzt zusätzlich die eigenen Token-Wahrscheinlichkeiten des Modells, sofern verfügbar. Dieser Ansatz übertrifft neun starke Baselines und liefert damit die beste Leistung bei der Erkennung von Halluzinationen und der Auswahl korrekter Antworten.

RDS lässt sich zudem problemlos auf einzelne Stichproben anwenden, was neue Anwendungsmöglichkeiten eröffnet – etwa die Auswahl der besten Antwort aus einer Gruppe von N Vorschlägen oder das Filtern von Antworten basierend auf dem Vertrauen des Modells. In Tests mit vier anspruchsvollen, freien Frage‑Antwort-Datensätzen und verschiedenen LLMs zeigte RDS einen führenden Stand in der Halluzinationsdetektion und Antwortauswahl, während es gleichzeitig robust und skalierbar bleibt, egal wie groß die Stichprobe oder welche Einbettung verwendet wird.

Ähnliche Artikel