ServiceNow präsentiert DRBench – realistische Benchmark für Deep-Research-Agenten
ServiceNow Research hat DRBench veröffentlicht, eine neue Benchmark und ein lauffähiges Umfeld, das die Leistungsfähigkeit von „Deep‑Research“-Agenten auf komplexen, offenen Unternehmensaufgaben bewertet. Ziel ist es, die Fähigkeit von KI-Systemen zu messen, Fakten aus öffentlichen Webquellen sowie aus privaten Unternehmensdaten zu extrahieren, zu verarbeiten und in korrekt zitierten Berichten zusammenzuführen.