Omni-MATH-2: Sauberer Datensatz enthüllt Fehler bei LLM-Bewertungen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neu veröffentlichte Version des Omni-MATH-Datensatzes, Omni-MATH-2, wurde manuell überarbeitet und enthält nun einen sauberen Teil mit 4.181 exakt beantworteten Aufgaben sowie einen gekennzeichneten Teil mit 247 Aufgaben, die besondere Anforderungen stellen.

Jede Aufgabe wurde einer gründlichen Prüfung unterzogen, um sicherzustellen, dass LaTeX korrekt kompiliert, die Aufgaben lösbar und überprüfbar sind. Dabei wurden fehlende Abbildungen ergänzt, Aufgaben, die einen Beweis, eine Schätzung oder ein Bild erfordern, gekennzeichnet und unnötiger Ballast entfernt. Dieser Prozess hat die Rauschbelastung des Datensatzes erheblich reduziert und ermöglicht eine präzisere Bewertung der Leistungsfähigkeit von Sprachmodellen.

Durch die annotierte Version konnten die Autoren die Fehlerquote von Bewertungsgeräten untersuchen. Ein Vergleich zwischen GPT‑5 mini und dem ursprünglichen Omni‑Judge zeigte erhebliche Diskrepanzen. Expertenanalysen ergaben, dass bei 96,4 % der Bewertungsunterschiede der Omni‑Judge falsch lag, was die Unfähigkeit des Systems unterstreicht, die Fähigkeiten von Modellen zuverlässig zu unterscheiden, noch bevor die Benchmarks gesättigt sind.

Die Ergebnisse verdeutlichen, dass bei steigender Problemkomplexität kompetente Bewertungsgeräte unverzichtbar sind, um Fehler zu vermeiden, die echte Leistungsunterschiede verschleiern könnten. Gleichzeitig zeigt die fehlende Erkennung von Fehlern bei den gekennzeichneten Aufgaben, dass sowohl die Qualität des Datensatzes als auch die Zuverlässigkeit der Bewertungsgeräte entscheidend sind, um genaue und aussagekräftige Benchmarks für große Sprachmodelle zu entwickeln.

Ähnliche Artikel