MedMCP-Calc: LLMs im realistischen medizinischen Rechenumfeld testen
Medizinische Rechner sind unverzichtbar für evidenzbasierte klinische Entscheidungen, doch ihre tatsächliche Nutzung erfordert einen mehrstufigen, adaptiven Prozess: von der proaktiven EHR-Datenbeschaffung über die Auswahl des passenden Rechners bis hin zu mehrstufigen Berechnungen. Bisher konzentrierten sich Benchmarks ausschließlich auf statische, einschrittige Aufgaben mit klaren Anweisungen.
Mit MedMCP-Calc wird das erste Benchmarking-Set vorgestellt, das große Sprachmodelle (LLMs) in realistischen medizinischen Rechen-Szenarien testet. Das Set umfasst 118 Aufgaben in vier klinischen Bereichen, die unscharfe, natürliche Anfragen, strukturierte EHR-Datenabfragen, externe Referenzabrufe und prozessuale Bewertungen kombinieren. Durch die Integration des Model Context Protocol (MCP) wird die Interaktion zwischen Modell, Datenbank und externen Tools simuliert.
Die Bewertung von 23 führenden Modellen zeigte deutliche Schwächen: Selbst die Spitzenmodelle wie Claude Opus 4.5 hatten Schwierigkeiten, bei unscharfen Anfragen den richtigen Rechner auszuwählen, zeigten schlechte Leistungen bei iterativen SQL-Abfragen und zögerten, externe Rechenwerkzeuge zu nutzen. Die Ergebnisse variieren zudem stark zwischen den klinischen Domänen.
Auf Basis dieser Erkenntnisse wurde CalcMate entwickelt – ein feinabgestimmtes Modell, das Szenarioplanung und Tool-Integration nutzt. CalcMate erreicht damit die beste Leistung unter Open-Source-Modellen. Das Benchmark-Set sowie die zugehörigen Codes sind unter https://github.com/SPIRAL-MED/MedMCP-Calc verfügbar.