Halluzinationen bei Deep Research Agents: Warum sie scheitern

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv-Repository beleuchtet die Ursachen, warum Deep Research Agents (DRAs) häufig scheitern. Der Fokus liegt dabei auf Halluzinationen – falschen oder unvollständigen Informationen, die während des gesamten Forschungsprozesses entstehen.

Derzeit beruhen die meisten Benchmarks auf einer End-to-End-Bewertung, die wichtige Zwischenfehler wie fehlerhafte Planung ausblendet. Um dieses Problem zu lösen, schlägt die Arbeit einen Prozess-bewussten Ansatz vor, bei dem die komplette Forschungsreise systematisch überprüft wird.

Im Zentrum steht die PIES-Taxonomie, die Halluzinationen in zwei funktionale Komponenten (Planung vs. Zusammenfassung) und zwei Fehlerarten (explizit vs. implizit) unterteilt. Diese Klassifikation bildet die Basis für ein detailliertes Evaluationsframework, das die einzelnen Schritte der Forschungsreise aufschlüsselt und Halluzinationen präzise quantifiziert.

Mit diesem Framework wurden 100 Aufgaben identifiziert, die besonders anfällig für Halluzinationen sind – darunter auch gezielte Angriffs-Szenarien. Auf dieser Grundlage entstand die Benchmark DeepHalluBench, die DRAs systematisch testen soll.

Die Experimente an sechs führenden DRAs zeigen, dass keines der Systeme eine robuste Zuverlässigkeit erreicht. Die Analyse legt nahe, dass die Fehler auf systemische Defizite zurückzuführen sind, insbesondere die Weitergabe von Halluzinationen und kognitive Verzerrungen im Entscheidungsprozess.

Die Autoren stellen die Daten und den Code unter https://github.com/yuhao-zhan/DeepHalluBench zur Verfügung, um weitere Forschung und Optimierung von Deep Research Agents zu fördern.

Ähnliche Artikel