M3-Bench: Neuer Maßstab für multimodale Tool‑Nutzung in komplexen Workflows
Die Wissenschaft erhält mit M3‑Bench einen ersten, umfassenden Test für multimodale Tool‑Nutzung unter dem Model Context Protocol. Der Benchmark richtet sich an realistische, mehrstufige und mehrthreadige Arbeitsabläufe, die sowohl visuelle Referenzierung als auch textuelles Argumentieren erfordern. Dabei werden Abhängigkeiten zwischen verschiedenen Tools berücksichtigt und die Persistenz von Zwischenergebnissen über mehrere Schritte hinweg sichergestellt.