KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Benchmark-Dataset”

Neues Benchmark-Dataset zur Bewertung von NLP- und RAG-Systemen im EU AI Act

Ein neues, öffentlich zugängliches Benchmark-Dataset wurde vorgestellt, das die Bewertung von NLP‑ und Retrieval‑Augmented‑Generation‑Syste…

arXiv – cs.AI 11.03.2026 04:00

Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

Ein brandneues Benchmark-Dataset namens Engineering Reasoning and Instruction (ERI) wurde veröffentlicht, das speziell dafür entwickelt wur…

arXiv – cs.AI 04.03.2026 05:00

Neues Benchmark-Dataset für End-to-End autonomes Fahren: 2,85 Mio. Frames

Die Erstellung eines hochwertigen Datensatzes ist entscheidend für die Weiterentwicklung autonomer Fahrsysteme. Ein Mangel an sorgfältiger…

arXiv – cs.AI 02.03.2026 05:00

UAVBench: 50.000 LLM-generierte UAV-Flugszenarien als neues Benchmark-Set

UAVBench ist ein öffentliches Benchmark-Dataset, das 50.000 validierte UAV-Flugszenarien enthält. Die Szenarien wurden mithilfe von taxonom…

arXiv – cs.AI 17.11.2025 05:00

<p>Neues ExtremBench-Benchmark enthüllt Schwächen von LLMs bei Extremalaufgaben</p> <p>Eine aktuelle Studie aus dem arXiv-Repository (ArXiv:2510.12997v1) präsentiert ExtremBench, ein neues Benchmark-Dataset, das speziell dafür entwickelt wurde, die Fähigkeit von Large Language Models (LLMs) zur Lösung von Extremalproblemen zu testen. Die Aufgaben stammen aus den Ungleichungsübungen der chinesischen Mathematik-Olympiade und wurden zu 93 standardisierten Extremalaufgaben umgewandelt.</p> <p>Die Autoren haben

arXiv – cs.LG 16.10.2025 05:00