ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit
Deep‑Research‑Agenten nutzen große Sprachmodelle, um offene Fragen zu beantworten. Sie kombinieren mehrstufiges Denken, die Synthese von Informationen aus mehreren Dokumenten und die Erstellung von langformatigen, evide…