Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
Die Kosten für die vollständige Bewertung großer Sprachmodelle (LLMs) sind so hoch, dass neue, effiziente Alternativen dringend benötigt werden. Traditionelle Ansätze reduzieren die Benchmarkgröße, indem sie eine kleine…
- Die Kosten für die vollständige Bewertung großer Sprachmodelle (LLMs) sind so hoch, dass neue, effiziente Alternativen dringend benötigt werden.
- Traditionelle Ansätze reduzieren die Benchmarkgröße, indem sie eine kleine Stichprobe von Aufgaben auswählen, die die Gesamtleistung approximieren.
- Dabei ist jedoch die Zuverlässigkeit stark von der Größe des Modellpools abhängig, was gerade bei neu eingeführten Benchmarks mit wenig historischen Daten problematisch…
Die Kosten für die vollständige Bewertung großer Sprachmodelle (LLMs) sind so hoch, dass neue, effiziente Alternativen dringend benötigt werden. Traditionelle Ansätze reduzieren die Benchmarkgröße, indem sie eine kleine Stichprobe von Aufgaben auswählen, die die Gesamtleistung approximieren. Dabei ist jedoch die Zuverlässigkeit stark von der Größe des Modellpools abhängig, was gerade bei neu eingeführten Benchmarks mit wenig historischen Daten problematisch ist.
REPCORE, ein neues Verfahren, geht einen Schritt weiter: Es nutzt die versteckten Zustände der Modelle, anstatt nur die diskreten Richtig‑/Falsch‑Labels zu betrachten. Durch die Ausrichtung heterogener Hidden States in einen gemeinsamen latenten Raum werden repräsentative Coresets erstellt, die die Entscheidungsprozesse der Modelle besser abbilden.
In Experimenten mit fünf Benchmarks und über 200 Modellen konnte REPCORE die Genauigkeit der Leistungsabschätzungen mit nur zehn Ausgangsmodellen deutlich steigern. Die Rangkorrelation und die Schätzgenauigkeit übertrafen dabei herkömmliche, auf Ausgaben basierende Baselines. Eine spektrale Analyse zeigte, dass die ausgerichteten Repräsentationen klar trennbare Komponenten enthalten, die sowohl allgemeine Antworttendenzen als auch spezifische Denkmuster widerspiegeln.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.