PATHWAYS: Benchmark zeigt Schwächen von Web-Agenten bei Kontextsuche
Mit dem neuen Benchmark PATHWAYS werden 250 mehrstufige Entscheidungsaufgaben vorgestellt, die prüfen, ob webbasierte Agenten versteckte Kontextinformationen entdecken und korrekt nutzen können. Die Tests decken sowohl…