Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
Die Kosten für die vollständige Bewertung großer Sprachmodelle (LLMs) sind so hoch, dass neue, effiziente Alternativen dringend benötigt werden. Traditionelle Ansätze reduzieren die Benchmarkgröße, indem sie eine kleine Stichprobe von Aufgaben auswählen, die die Gesamtleistung approximieren. Dabei ist jedoch die Zuverlässigkeit stark von der Größe des Modellpools abhängig, was gerade bei neu eingeführten Benchmarks mit wenig historischen Daten problematisch ist.
REPCORE, ein neues Verfahren, geht einen Schritt weiter: Es nutzt die versteckten Zustände der Modelle, anstatt nur die diskreten Richtig‑/Falsch‑Labels zu betrachten. Durch die Ausrichtung heterogener Hidden States in einen gemeinsamen latenten Raum werden repräsentative Coresets erstellt, die die Entscheidungsprozesse der Modelle besser abbilden.
In Experimenten mit fünf Benchmarks und über 200 Modellen konnte REPCORE die Genauigkeit der Leistungsabschätzungen mit nur zehn Ausgangsmodellen deutlich steigern. Die Rangkorrelation und die Schätzgenauigkeit übertrafen dabei herkömmliche, auf Ausgaben basierende Baselines. Eine spektrale Analyse zeigte, dass die ausgerichteten Repräsentationen klar trennbare Komponenten enthalten, die sowohl allgemeine Antworttendenzen als auch spezifische Denkmuster widerspiegeln.