M3-Bench: Neuer Maßstab für multimodale Tool‑Nutzung in komplexen Workflows
Die Wissenschaft erhält mit M3‑Bench einen ersten, umfassenden Test für multimodale Tool‑Nutzung unter dem Model Context Protocol. Der Benchmark richtet sich an realistische, mehrstufige und mehrthreadige Arbeitsabläufe, die sowohl visuelle Referenzierung als auch textuelles Argumentieren erfordern. Dabei werden Abhängigkeiten zwischen verschiedenen Tools berücksichtigt und die Persistenz von Zwischenergebnissen über mehrere Schritte hinweg sichergestellt.
Zur Bewertung nutzt M3‑Bench ein similarity‑driven Alignment, das jede Tool‑Aufruf‑Sequenz serialisiert, Signaturen mit einem Satz‑Encoder einbettet und anschließend mittels similarity‑bucketed Hungarian Matching eindeutige, nachvollziehbare Zuordnungen erzeugt. Auf dieser Basis werden interpretierbare Metriken berechnet, die die semantische Treue von Antworten von der Konsistenz des gesamten Workflows trennen.
Der Umfang des Benchmarks umfasst 28 Server mit insgesamt 231 Tools. Standardisierte Pfade werden durch einen Executor‑&Judge‑Pipeline mit menschlicher Verifikation kuratiert. Zusätzlich bewertet ein Ensemble aus vier großen Sprachmodellen die Endaufgabe, die Aufgabenerfüllung und die Informationsgrundlage. Das Repository ist öffentlich zugänglich unter https://github.com/EtaYang10th/Open-M3-Bench.
Bewertungen führender multimodaler LLMs zeigen deutliche Lücken in der Nutzung von MCP‑Tools, insbesondere bei der Argumenttreue und der strukturellen Konsistenz. Diese Ergebnisse unterstreichen die Notwendigkeit neuer Ansätze, die gleichzeitig Bilder, Texte und Tool‑Graphen berücksichtigen, um die Leistungsfähigkeit multimodaler Modelle weiter zu steigern.