Forschung
Neues Benchmark BrowseComp‑V3 testet multimodale Web‑Agenten auf 300 Fragen
Die Forschung im Bereich multimodaler Sprachmodelle hat ein neues Maßstabsetzer-Tool vorgestellt: BrowseComp‑V3. Dieses Benchmark‑Set beste…
arXiv – cs.AI