Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Benchmark-Dataset”
Forschung

<p>Neues ExtremBench-Benchmark enthüllt Schwächen von LLMs bei Extremalaufgaben</p> <p>Eine aktuelle Studie aus dem arXiv-Repository (ArXiv:2510.12997v1) präsentiert ExtremBench, ein neues Benchmark-Dataset, das speziell dafür entwickelt wurde, die Fähigkeit von Large Language Models (LLMs) zur Lösung von Extremalproblemen zu testen. Die Aufgaben stammen aus den Ungleichungsübungen der chinesischen Mathematik-Olympiade und wurden zu 93 standardisierten Extremalaufgaben umgewandelt.</p> <p>Die Autoren haben

arXiv – cs.LG