ReportBench: Benchmark Deep Research Agents – Qualität von Forschungsberichten
Mit der Einführung von Deep Research Agents hat sich die Zeit für umfangreiche Forschungsaufgaben drastisch verkürzt. Doch diese Tools müssen strenge Anforderungen an Faktengenauigkeit und Vollständigkeit erfüllen, bevor sie breit eingesetzt werden können. Das neue Benchmark-System ReportBench wurde deshalb entwickelt, um die Qualität der von großen Sprachmodellen (LLMs) generierten Forschungsberichte systematisch zu prüfen.