Forschung
EvolMathEval: Dynamische, evolvierbare Mathematik-Benchmarks für LLMs
Die rasante Entwicklung großer Sprachmodelle (LLMs) stellt herkömmliche mathematische Benchmark‑Tests vor enorme Herausforderungen. Typisch…
arXiv – cs.AI