Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Olympiad”
Forschung

<h1>Multi-Agent-Modelle übertreffen Einzelagenten bei geometrischen Diagrammaufgaben</h1> <p>Eine neue Studie aus dem arXiv-Repository untersucht, ob mehrere Agenten in einem Pipeline-Ansatz besser als ein einzelner Agent bei der Lösung von geometrischen Problemen mit Diagrammen abschneiden. Dabei wurden vier führende visuelle Mathematik-Benchmarks – Geometry3K, MathVerse, OlympiadBench und We-Math – herangezogen, um die Leistungsunterschiede systematisch zu vergleichen.</p> <p>Für Open-Source-Modelle zeigt

arXiv – cs.AI
Forschung

<p>Neues ExtremBench-Benchmark enthüllt Schwächen von LLMs bei Extremalaufgaben</p> <p>Eine aktuelle Studie aus dem arXiv-Repository (ArXiv:2510.12997v1) präsentiert ExtremBench, ein neues Benchmark-Dataset, das speziell dafür entwickelt wurde, die Fähigkeit von Large Language Models (LLMs) zur Lösung von Extremalproblemen zu testen. Die Aufgaben stammen aus den Ungleichungsübungen der chinesischen Mathematik-Olympiade und wurden zu 93 standardisierten Extremalaufgaben umgewandelt.</p> <p>Die Autoren haben

arXiv – cs.LG