Neue Metriken aus Informationstheorie und Thermodynamik messen LLM-Genauigkeit
In einer kürzlich veröffentlichten Studie auf arXiv werden zwei völlig neue, unüberwachte Messgrößen vorgestellt, die die Treue von Large Language Models (LLMs) zu einer vorgegebenen Aufgabe quantifizieren. Die Autoren nutzen dabei Erkenntnisse aus der Informationstheorie und der Thermodynamik, um die Funktionsweise eines LLMs als bipartiten Informationsmotor zu beschreiben.
Der Ansatz modelliert die Tripel Frage‑Kontext‑Antwort (QCA) als Wahrscheinlichkeitsverteilungen über gemeinsame Themen. Die Transformation von Kontext zu Frage und von Frage zu Antwort wird durch Übergangsmatrizen dargestellt, die die Zielsetzung der Abfrage bzw. das tatsächliche Ergebnis kodieren. Die neue „Semantic Faithfulness“ (SF)-Metrik misst die Treue eines QCA‑Tripels, indem sie die Kullback‑Leibler‑Divergenz zwischen diesen beiden Matrizen berechnet. Durch gleichzeitige Optimierung der Matrizen mittels konvexer Verfahren wird die minimale Divergenz ermittelt und anschließend auf den Intervall [0,1] abgebildet – je höher der Wert, desto treuer die Antwort.
Zusätzlich wird eine thermodynamikbasierte „Semantic Entropy Production“ (SEP)-Metrik eingeführt, die die Entropie, die bei der Antwortgenerierung entsteht, erfasst. Die Autoren zeigen, dass ein hoher SF‑Score in der Regel mit einer niedrigen SEP‑Wert korreliert, was darauf hindeutet, dass treue Antworten weniger „chaotische“ Informationsverarbeitung erfordern.
Die beiden Metriken können einzeln oder gemeinsam eingesetzt werden, um LLMs zu bewerten und Halluzinationen gezielt zu reduzieren. Als Anwendungsbeispiel demonstrieren die Forscher ihr Framework bei der Zusammenfassung von Unternehmensberichten (SEC 10‑K‑Filings), wobei die neuen Kennzahlen eine präzisere und verlässlichere Bewertung der Modellleistung ermöglichen.