HORIZON‑Benchmark enthüllt Schwachstellen von LLM‑Agenten bei langen Aufgaben
Ein neues Forschungsprojekt namens HORIZON liefert erstmals ein systematisches Diagnose-Tool für die Analyse von Fehlern in großen Sprachmodell‑Agenten, wenn sie komplexe, langanhaltende Aufgaben bewältigen müssen. Die…