Forschung
ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit
Deep‑Research‑Agenten nutzen große Sprachmodelle, um offene Fragen zu beantworten. Sie kombinieren mehrstufiges Denken, die Synthese von In…
arXiv – cs.AI