EvolMathEval: Dynamische, evolvierbare Mathematik-Benchmarks für LLMs
Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt herkömmliche mathematische Benchmark‑Tests vor enorme Herausforderungen. Typische Probleme wie Score‑Sättigung, zeitliche Abnahme der Relevanz und Datenkontamination machen die Bewertung von Modellen zunehmend unzuverlässig.