Intraclass Correlation: Neue Messmethode für Konsistenz in KI-Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit der zunehmenden Integration großer Sprachmodelle in komplexe Agentensysteme wird die Zuverlässigkeit ihrer Bewertungen immer wichtiger. Ein einzelner Genauigkeitswert aus einer einzigen Ausführung verbirgt jedoch die zugrunde liegende Streuung und lässt echte Leistungsverbesserungen mit Glücksverzerrungen verwechseln.

Um diese Unsicherheit sichtbar zu machen, schlägt die Studie die Verwendung des Intraclass Correlation Coefficient (ICC) vor – ein etabliertes Maß aus der Messwissenschaft. Der ICC trennt die beobachtete Varianz in zwischenfragebezogene Schwierigkeitsvariationen und innerhalbfragebezogene Inkonsistenzen des Agenten, sodass klarer wird, ob ein Ergebnis auf echter Fähigkeit oder auf Rauschen beruht.

In praktischen Tests auf den Datensätzen GAIA (Agentenfähigkeiten mit steigender Rechenkomplexität) und FRAMES (Retrieval und Faktizität über mehrere Dokumente) zeigte sich, dass der ICC stark von der Aufgabenstruktur abhängt. Für Retrieval‑ und Faktenaufgaben lag der ICC zwischen 0,4955 und 0,7118, während er bei agentischen Aufgaben zwischen 0,304 und 0,774 schwankte. Diese Werte verdeutlichen, dass eine reine Genauigkeitssteigerung nur dann vertrauenswürdig ist, wenn auch der ICC zunimmt.

Die Autoren betonen, dass der ICC bei strukturierten Aufgaben bereits nach 8–16 Wiederholungen konvergiert, bei komplexeren Rechenaufgaben jedoch mindestens 32 Messungen erforderlich sind. Sie empfehlen daher, Genauigkeit, ICC und die innerhalbfragebezogene Varianz künftig als Standardberichte zu veröffentlichen, um evidenzbasierte Entscheidungen bei der Sub‑Agenten‑Auswahl zu ermöglichen.

Ähnliche Artikel