Verteilungsbasierte Vertrauenskalibrierung verbessert KI-Modelle
In der Welt der großen Sprachmodelle hat die Technik des Test‑Time‑Scalings die Genauigkeit von Vorhersagen deutlich gesteigert, indem mehrere Antwortkandidaten generiert und der zuverlässigste ausgewählt wird. Doch bisher wurde das interne Vertrauenssignal – die Confidence‑Scores – nur teilweise genutzt, obwohl es bereits eine statistische Beziehung zur tatsächlichen Richtigkeit der Antworten aufweist.
Mit der neuen Methode DistriVoting wird dieses Potential voll ausgeschöpft. Dabei wird die Verteilung der Confidence‑Scores zunächst in positive und negative Komponenten zerlegt, indem ein Gauss‑Mischungsmodell angewendet wird. Anschließend filtert ein Reject‑Filter die beiden Gruppen, um Überlappungen zu reduzieren und die Zuverlässigkeit der gewählten Antworten zu erhöhen.
Um die Trennung der beiden Verteilungen weiter zu verstärken, führt das Team zusätzlich SelfStepConf ein. Diese Technik nutzt die Confidence‑Scores auf Schritt‑Ebene, um den Inferenzprozess dynamisch anzupassen und die Distanz zwischen positiven und negativen Signalen zu vergrößern. Das Ergebnis: eine deutlich verbesserte Vertrauenskalibrierung.
In umfangreichen Tests mit 16 unterschiedlichen Modellen und fünf Benchmark‑Datensätzen übertraf die Kombination aus DistriVoting und SelfStepConf die bisherigen Spitzenreiter erheblich. Damit wird gezeigt, dass die gezielte Nutzung von Verteilungsinformationen ein entscheidender Schritt zur Optimierung von KI‑Antworten ist.