Suche nach Benchmark-Tool

LemmaBench: Live-Benchmark für LLMs in der mathematischen Forschung

Forscher haben ein neues Benchmark-Tool namens LemmaBench vorgestellt, das die Leistungsfähigkeit von großen Sprachmodellen (LLMs) in der m…

arXiv – cs.AI 02.03.2026 05:00

Forschung

AgentLeak: Benchmark deckt massive Datenschutzlücken in Multi-Agent-LLM-Systemen auf

Ein neues Benchmark-Tool namens AgentLeak hat die Schwachstellen von Multi-Agent-LLM-Systemen aufgedeckt, die bisher von herkömmlichen Prüf…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Neues Benchmark-Tool prüft, wie LLM-Agenten ihr Langzeitgedächtnis strukturieren

In der Welt der KI-Agenten, die auf großen Sprachmodellen (LLMs) basieren, spielt das Langzeitgedächtnis eine zentrale Rolle. Es speichert…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

Die neuesten Fortschritte in großen Bildbearbeitungsmodellen haben das Paradigma von textbasierten Anweisungen zu vision‑prompt‑Editing ver…

arXiv – cs.AI 12.02.2026 05:00

Forschung

<p>LLMs schwächeln bei nicht-sequentiellen Anweisungen – RIFT-Test enthüllt Grenzen</p> <p>Ein neues Benchmark-Tool namens RIFT (Reordered Instruction Following Testbed) hat die Schwächen von Large Language Models (LLMs) im Umgang mit komplexen, nicht-linearen Arbeitsabläufen aufgedeckt. Während LLMs zunehmend für anspruchsvolle Aufgaben eingesetzt werden, blieb bislang unklar, wie gut sie Anweisungen in unterschiedlichen Strukturen verarbeiten können.</p> <p>RIFT löst dieses Problem, indem es die Struktur

arXiv – cs.AI 28.01.2026 05:00

Forschung

Neues Benchmark-Tool testet Lern-, Explorations- und Scheduling-Fähigkeiten von Agenten

Die rasante Weiterentwicklung multimodaler Large Language Models hat die Automatisierung von Arbeitsabläufen stark vorangetrieben. Doch bis…

arXiv – cs.AI 14.01.2026 05:00

Forschung

ReliabilityBench: Maßstab für Zuverlässigkeit von Agenten im Produktionsumfeld

ReliabilityBench ist ein brandneues Benchmark-Tool, das die Zuverlässigkeit von Large‑Language‑Model‑Agenten unter produktionsähnlichen Bed…

arXiv – cs.AI 13.01.2026 05:00

Forschung

Tape: Benchmark für Reinforcement Learning – Regelwechsel testen

Forscher haben Tape entwickelt, ein neues Benchmark-Tool, das Reinforcement‑Learning‑Algorithmen gezielt auf ihre Fähigkeit prüft, sich an…

arXiv – cs.AI 09.01.2026 05:00

Forschung

KI-Modelle zeigen große Lücken in Frauenheilkunde – Benchmark enthüllt 60 % Fehler

Mit der zunehmenden Nutzung von großen Sprachmodellen (LLMs) als primäre Informationsquelle im Gesundheitswesen ist ihre Zuverlässigkeit in…

arXiv – cs.AI 22.12.2025 05:00

Forschung

GraphBench: Das neue Benchmark-Tool für Graph-Learning <p>In den letzten Jahren hat das maschinelle Lernen auf Graphen enorme Fortschritte erzielt – von der Vorhersage molekularer Eigenschaften bis hin zur Chip-Entwicklung. Trotz dieser Erfolge bleiben die Benchmarking‑Praktiken fragmentiert, weil sie häufig auf eng begrenzten, domänenspezifischen Datensätzen und inkonsistenten Evaluationsprotokollen basieren. Das erschwert die Reproduzierbarkeit und hemmt die Weiterentwicklung.</p> <p>Um diese Lücken z

arXiv – cs.LG 05.12.2025 05:00

Forschung

LiveCLKTBench: verlässliche Bewertung sprachübergreifenden Wissenstransfers

Die neue Plattform LiveCLKTBench eröffnet Forschern ein zuverlässiges Werkzeug, um den Wissenstransfer zwischen Sprachen in großen Sprachmo…

arXiv – cs.AI 20.11.2025 05:00

Forschung

Neuer Benchmark KAMI zeigt, dass Unternehmens-LLMs nicht immer besser sind

Ein neues Benchmark-Tool namens Kamiwaza Agentic Merit Index (KAMI) v0.1 wurde vorgestellt, um die Leistungsfähigkeit von KI-Systemen in re…

arXiv – cs.AI 12.11.2025 05:00

Forschung

SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs

Mechanistische Interpretierbarkeit zielt darauf ab, neuronale Netze in verständliche Bausteine zu zerlegen und die Verbindungen zwischen ih…

arXiv – cs.LG 12.11.2025 05:00

Forschung

CATArena: Neues Benchmark-Tool für lernende LLM-Agenten

Large Language Model (LLM)-Agenten haben sich von einfachen Textgeneratoren zu autonomen Systemen entwickelt, die komplexe Aufgaben durch I…

arXiv – cs.AI 03.11.2025 05:00

Aktuell

KI-Agenten: Schlechte Freelancer – neuer Test zeigt Grenzen

Ein brandneues Benchmark-Tool hat die Leistungsfähigkeit von KI-Agenten bei der Automatisierung wirtschaftlich wertvoller Aufgaben untersuc…

Wired – AI (Latest) 29.10.2025 18:00

Forschung

Neues Benchmark prüft Rationalität großer Sprachmodelle

In der Welt der künstlichen Intelligenz haben große Sprachmodelle (LLMs) in den letzten Jahren enorme Fortschritte erzielt und gelten inzwi…

arXiv – cs.AI 19.09.2025 05:00

Forschung

<h1>Graphbasierter Test-Harness bewertet medizinische LLMs präzise</h1> <p>Ein neues, dynamisches Benchmark-Tool für medizinische Leitlinien wurde vorgestellt. Das System nutzt einen gerichteten Graphen, der aus dem WHO‑IMCI-Handbuch abgeleitet wurde und über 200 Knoten (Bedingungen, Symptome, Behandlungen, Nachsorge, Schweregrade) sowie mehr als 300 Kanten verfügt. Durch gezielte Graphendurchquerung entstehen über 400 Fragen mit bis zu 3,3 Billionen möglichen Kombinationen, sodass 100 % der Leitlinienbezi

arXiv – cs.AI 29.08.2025 05:00

Finde Modelle, Firmen und Themen

LemmaBench: Live-Benchmark für LLMs in der mathematischen Forschung

AgentLeak: Benchmark deckt massive Datenschutzlücken in Multi-Agent-LLM-Systemen auf

Neues Benchmark-Tool prüft, wie LLM-Agenten ihr Langzeitgedächtnis strukturieren

Visuelle Jailbreak-Angriffe auf Bildbearbeitungsmodelle: Sicherheitslücke entdeckt

Neues Benchmark-Tool testet Lern-, Explorations- und Scheduling-Fähigkeiten von Agenten

ReliabilityBench: Maßstab für Zuverlässigkeit von Agenten im Produktionsumfeld

Tape: Benchmark für Reinforcement Learning – Regelwechsel testen

KI-Modelle zeigen große Lücken in Frauenheilkunde – Benchmark enthüllt 60 % Fehler

LiveCLKTBench: verlässliche Bewertung sprachübergreifenden Wissenstransfers

Neuer Benchmark KAMI zeigt, dass Unternehmens-LLMs nicht immer besser sind

SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs

CATArena: Neues Benchmark-Tool für lernende LLM-Agenten

KI-Agenten: Schlechte Freelancer – neuer Test zeigt Grenzen

Neues Benchmark prüft Rationalität großer Sprachmodelle

🍪 Cookie-Einstellungen

KI-Modelle zeigen große Lücken in Frauenheilkunde – Benchmark enthüllt 60 % Fehler