HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben
Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die…
- Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplex…
- Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpft…
- HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien.
Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die Autoren zeigen, dass aktuelle Spitzenmodelle – darunter Varianten von GPT‑5 und Claude – zwar bei kurzen und mittleren Aufgaben glänzen, aber bei längeren, verknüpften Aktionsketten häufig versagen.
HORIZON sammelt über 3.100 Trajektorien aus vier repräsentativen Agentik‑Domänen und bewertet damit die Leistung von SOTA‑Agenten aus verschiedenen Modellfamilien. Durch die strukturierte Aufgaben‑ und Trajektorien‑Erstellung lassen sich Muster der horizonabhängigen Leistungsabnahme eindeutig identifizieren.
Ein weiteres Highlight ist die Einführung eines „LLM‑as‑a‑Judge“-Pipelines, die Fehlerursachen aus Trajektorien automatisch klassifiziert. Die Ergebnisse wurden mit menschlicher Annotation abgeglichen und erzielten eine starke Übereinstimmung (Inter‑Annotator‑Kappa = 0,61; Human‑Judge‑Kappa = 0,84). Damit bietet die Methode eine skalierbare und reproduzierbare Möglichkeit, Fehlermuster zu bestimmen.
Die Autoren stellen die Plattform öffentlich zur Verfügung und laden die Community ein, zum Benchmark beizutragen. Weitere Informationen und die vollständige Datensammlung finden Sie auf der Projekt‑Website: HORIZON Leaderboard.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.