Forschung
PATHWAYS: Benchmark zeigt Schwächen von Web-Agenten bei Kontextsuche
Mit dem neuen Benchmark PATHWAYS werden 250 mehrstufige Entscheidungsaufgaben vorgestellt, die prüfen, ob webbasierte Agenten versteckte Ko…
arXiv – cs.AI