MatheMagic: Dynamische Mathematik-Benchmarks ohne Memorierung
Die Bewertung mathematischer Fähigkeiten ohne Einfluss von Memorierung ist bislang schwierig. Modelle können ein öffentliches Testset auswendig lernen, und bestehende Benchmarks zeigen oft Überanpassung, weil sie nur we…