EvolMathEval: Dynamische, evolvierbare Mathematik-Benchmarks für LLMs
Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt herkömmliche mathematische Benchmark‑Tests vor enorme Herausforderungen. Typische Probleme wie Score‑Sättigung, zeitliche Abnahme der Relevanz und Datenkontamination machen die Bewertung von Modellen zunehmend unzuverlässig.
Mit dem neuen Framework EvolMathEval wird diese Problematik angegangen. Durch automatisierte, evolutionäre Tests werden neue Prüfungsaufgaben von Grund auf neu generiert. Dadurch entfällt das Risiko von Datenkontamination und die Benchmarks bleiben dauerhaft anspruchsvoll.
Die Kernmechanismen von EvolMathEval umfassen:
- Seed‑Problem‑Generierung mittels Reverse‑Engineering und algebraischer Garantien.
- Mehrdimensionale genetische Operatoren, die vielfältige kognitive Herausforderungen einführen.
- Eine zusammengesetzte Fitnessfunktion, die die Schwierigkeit von Aufgaben schnell und exakt bewertet.
Experimentelle Ergebnisse zeigen, dass die Fitnessfunktion die Komplexität von mathematischen Problemen zuverlässig quantifiziert. EvolMathEval kann nicht nur große Mengen hochschwieriger Aufgaben durch kontinuierliche Selbstiteration erzeugen, sondern auch öffentliche Datensätze wie GSM8K durch evolutionäre Optimierung deutlich erschweren – die Modellgenauigkeit sinkt im Durchschnitt um 48 %.
Eine tiefere Analyse offenbart, dass LLMs bei diesen komplexen, evolvierten Aufgaben vermehrt auf nicht‑rigoristische Heuristiken zurückgreifen, um mehrstufige logische Schlüsse zu umgehen. Dies führt häufig zu falschen Lösungen und verdeutlicht die Notwendigkeit von Benchmarks, die echte mathematische Tiefe erfordern.