Forschung
HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben
Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmo…
arXiv – cs.AI