Forschung arXiv – cs.AI

HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben

Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplex…
  • Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpft…
  • HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien.

Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpften Aktionsketten häufig versagen.

HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien. Durch die strukturierte Aufgaben‑ und Trajektorien‑Erstellung lassen sich Muster der horizonabhängigen Leistungsabnahme eindeutig identifizieren.

Ein weiteres Highlight ist die Einführung eines „LLM‑as‑a‑Judge“-Pipelines, die Fehlerursachen aus Trajektorien automatisch klassifiziert. Die Ergebnisse wurden mit menschlicher Annotation abgeglichen und erzielten eine starke Übereinstimmung (Inter‑Annotator‑Kappa = 0,61; Human‑Judge‑Kappa = 0,84). Damit bietet die Methode eine skalierbare und reproduzierbare Möglichkeit, Fehlermuster zu bestimmen.

Die Autoren stellen die Plattform öffentlich zur Verfügung und laden die Community ein, zum Benchmark beizutragen. Weitere Informationen und die vollständige Datensammlung finden Sie auf der Projekt‑Website: HORIZON Leaderboard.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

HORIZON
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Diagnose-Tool
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LLM-as-a-Judge
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen