HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplex…
Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpft…
HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien.

Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpften Aktionsketten häufig versagen.

HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien. Durch die strukturierte Aufgaben‑ und Trajektorien‑Erstellung lassen sich Muster der horizonabhängigen Leistungsabnahme eindeutig identifizieren.

Ein weiteres Highlight ist die Einführung eines „LLM‑as‑a‑Judge“-Pipelines, die Fehlerursachen aus Trajektorien automatisch klassifiziert. Die Ergebnisse wurden mit menschlicher Annotation abgeglichen und erzielten eine starke Übereinstimmung (Inter‑Annotator‑Kappa = 0,61; Human‑Judge‑Kappa = 0,84). Damit bietet die Methode eine skalierbare und reproduzierbare Möglichkeit, Fehlermuster zu bestimmen.

Die Autoren stellen die Plattform öffentlich zur Verfügung und laden die Community ein, zum Benchmark beizutragen. Weitere Informationen und die vollständige Datensammlung finden Sie auf der Projekt‑Website: HORIZON Leaderboard.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

HORIZON

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Diagnose-Tool

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

LLM-as-a-Judge

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

HORIZON systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu HORIZON

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

HORIZON

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen