ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit
Deep‑Research‑Agenten nutzen große Sprachmodelle, um offene Fragen zu beantworten. Sie kombinieren mehrstufiges Denken, die Synthese von Informationen aus mehreren Dokumenten und die Erstellung von langformatigen, evidenzbasierten Antworten. Die Bewertung dieser Agenten ist jedoch schwierig, weil die Antworten lang, vielfältig und oft von dynamischen Quellen abhängig sind.