ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit
Deep‑Research‑Agenten nutzen große Sprachmodelle, um offene Fragen zu beantworten. Sie kombinieren mehrstufiges Denken, die Synthese von Informationen aus mehreren Dokumenten und die Erstellung von langformatigen, evidenzbasierten Antworten. Die Bewertung dieser Agenten ist jedoch schwierig, weil die Antworten lang, vielfältig und oft von dynamischen Quellen abhängig sind.
Um diese Herausforderung zu adressieren, stellt ResearchRubrics ein standardisiertes Benchmarking‑Set vor, das auf über 2 800 Stunden menschlicher Arbeit basiert. Es verbindet realistische, domänenübergreifende Aufgabenstellungen mit mehr als 2 500 von Experten verfassten, feingranularen Rubriken, die die Faktenbasis, die Logik und die Klarheit der Antworten prüfen. Zusätzlich wird ein neues Komplexitätsmodell vorgestellt, das Aufgaben entlang der Dimensionen konzeptionelle Breite, logische Verschachtelung und Exploration klassifiziert.
Die Autoren haben sowohl menschliche als auch modellbasierte Evaluationsprotokolle entwickelt, um die Einhaltung der Rubriken zu messen. Bei der Bewertung führender Deep‑Research‑Systeme – darunter Gemini’s DR und OpenAI’s DR – erreichten die Agenten durchschnittlich weniger als 68 % Rubrik‑Konformität. Die Hauptursachen sind fehlender impliziter Kontext und unzureichende Begründung der abgerufenen Informationen.
Die Ergebnisse unterstreichen die Notwendigkeit robuster, skalierbarer Bewertungsmechanismen für Deep‑Research‑Agenten. Aus diesem Grund veröffentlicht das Team ResearchRubrics inklusive aller Aufgaben, Rubriken und Evaluationscode, um die Entwicklung zuverlässiger, gut begründeter Forschungsassistenten zu fördern.