PATHWAYS: Benchmark zeigt Schwächen von Web-Agenten bei Kontextsuche
Mit dem neuen Benchmark PATHWAYS werden 250 mehrstufige Entscheidungsaufgaben vorgestellt, die prüfen, ob webbasierte Agenten versteckte Kontextinformationen entdecken und korrekt nutzen können. Die Tests decken sowohl geschlossene als auch offene Modelle ab und zeigen, dass die Agenten zwar häufig die relevanten Seiten finden, jedoch entscheidende Beweise nur in wenigen Fällen abrufen.