Med-CMR: Neuer Benchmark für medizinisches multimodales Denken
In klinischen Arbeitsabläufen tauchen multimodale Sprachmodelle (MLLMs) immer häufiger auf, doch ihre Fähigkeit, komplexe medizinische Fragestellungen zu lösen, bleibt unklar. Mit dem neuen Benchmark Med‑CMR wird diese Lücke geschlossen.
Med‑CMR unterscheidet sich von bestehenden Tests durch drei zentrale Merkmale. Erstens wird die multimodale medizinische Logik in feingranulare Schritte zerlegt: visuelles Verständnis und mehrstufige Schlussfolgerungen werden separat bewertet, um gezielte Stärken und Schwächen aufzudecken. Zweitens sind die Aufgaben bewusst anspruchsvoll gestaltet, wobei das visuelle Verständnis drei Schlüsseldimensionen abdeckt – kleine Objekte erkennen, feine Details unterscheiden und räumliche Beziehungen verstehen. Die logische Komponente umfasst vier klinisch relevante Szenarien: zeitliche Vorhersagen, kausale Zusammenhänge, Generalisierung auf seltene Fälle und die Integration mehrerer Informationsquellen. Drittens bietet Med‑CMR einen breiten, qualitativ hochwertigen Datensatz: 20 653 Visual‑Question‑Answering‑Paare, die 11 Organsysteme und 12 Bildmodalitäten abdecken. Jede Frage wurde in einem zweistufigen Prozess – menschliche Experten und modellgestützte Prüfung – validiert, um klinische Authentizität sicherzustellen.
Bei der Bewertung von 18 führenden MLLMs zeigte sich, dass das kommerzielle Modell GPT‑5 die höchste Leistung erzielt: 57,81 % Genauigkeit bei Multiple‑Choice‑Fragen und 48,70 % bei offenen Antworten. Es übertraf Gemini 2.5 Pro (49,87 % / 45,98 %) sowie das Open‑Source‑Modell Qwen3‑VL‑235B‑A22B (49,34 % / 42,62 %). Interessanterweise schneiden spezialisierte medizinische MLLMs nicht konsequent besser ab als starke allgemeine Modelle, und die größte Schwäche liegt in der Generalisierung auf seltene Fälle.
Med‑CMR liefert damit ein präzises Messinstrument, um die Fortschritte multimodaler Modelle im medizinischen Kontext zu verfolgen. Durch die Kombination aus detaillierter Aufgabenaufteilung, anspruchsvollen Testfällen und einem umfangreichen, validierten Datensatz bietet der Benchmark eine solide Grundlage für die Entwicklung robuster, klinisch relevanter KI‑Systeme.