Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Benchmark-Tool”
Forschung

<p>LLMs schwächeln bei nicht-sequentiellen Anweisungen – RIFT-Test enthüllt Grenzen</p> <p>Ein neues Benchmark-Tool namens RIFT (Reordered Instruction Following Testbed) hat die Schwächen von Large Language Models (LLMs) im Umgang mit komplexen, nicht-linearen Arbeitsabläufen aufgedeckt. Während LLMs zunehmend für anspruchsvolle Aufgaben eingesetzt werden, blieb bislang unklar, wie gut sie Anweisungen in unterschiedlichen Strukturen verarbeiten können.</p> <p>RIFT löst dieses Problem, indem es die Struktur

arXiv – cs.AI
Forschung

GraphBench: Das neue Benchmark-Tool für Graph-Learning <p>In den letzten Jahren hat das maschinelle Lernen auf Graphen enorme Fortschritte erzielt – von der Vorhersage molekularer Eigenschaften bis hin zur Chip-Entwicklung. Trotz dieser Erfolge bleiben die Benchmarking‑Praktiken fragmentiert, weil sie häufig auf eng begrenzten, domänenspezifischen Datensätzen und inkonsistenten Evaluationsprotokollen basieren. Das erschwert die Reproduzierbarkeit und hemmt die Weiterentwicklung.</p> <p>Um diese Lücken z

arXiv – cs.LG
Forschung

<h1>Graphbasierter Test-Harness bewertet medizinische LLMs präzise</h1> <p>Ein neues, dynamisches Benchmark-Tool für medizinische Leitlinien wurde vorgestellt. Das System nutzt einen gerichteten Graphen, der aus dem WHO‑IMCI-Handbuch abgeleitet wurde und über 200 Knoten (Bedingungen, Symptome, Behandlungen, Nachsorge, Schweregrade) sowie mehr als 300 Kanten verfügt. Durch gezielte Graphen­durchquerung entstehen über 400 Fragen mit bis zu 3,3 Billionen möglichen Kombinationen, sodass 100 % der Leitlinienbezi

arXiv – cs.AI