Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Reasoning”
Forschung

<h1>MC-Search: Benchmark für multimodale Agenten mit langen Beweisketten</h1> <p>Die neueste Veröffentlichung auf arXiv (2603.00873v1) stellt MC‑Search vor – ein wegweisendes Benchmark‑Set, das multimodale Agenten in ihrer Fähigkeit testet, komplexe, mehrstufige und wissensbasierte Aufgaben zu lösen. Im Gegensatz zu bisherigen Tests, die meist kurze Frage‑Antwort‑Ketten abbilden, umfasst MC‑Search 3 333 hochwertige Beispiele, die durchschnittlich 3,7 Schritte (Hops) enthalten und fünf typische Denkstrukture

arXiv – cs.AI