EvolMathEval: Dynamische, evolvierbare Mathematik-Benchmarks für LLMs
Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt herkömmliche mathematische Benchmark‑Tests vor enorme Herausforderungen. Typische Probleme wie Score‑Sättigung, zeitliche Abnahme der Relevanz und Datenkontamin…