Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Benchmark-Tests”
Forschung

<p>Ein neues Verfahren namens Recursive Concept Evolution (RCE) verspricht, die Leistungsfähigkeit großer Sprachmodelle bei komplexen Rechenaufgaben deutlich zu erhöhen.</p> <p>Obwohl moderne LLMs bei vielen Aufgaben brillieren, verlieren sie bei Benchmark-Tests, die tiefes Zusammenspiel von Konzepten erfordern, an Genauigkeit. Dazu zählen ARC‑AGI‑2, GPQA, MATH, BBH und HLE.</p> <p>RCE erlaubt es dem Modell, während der Inferenz seine internen Repräsentationen dynamisch zu verändern, indem es neue, niedrigd

arXiv – cs.AI