ART: Benchmark für medizinische KI-Agenten – Action‑basierte Entscheidungsfindung
Die neue Studie „ART: Action-based Reasoning Task Benchmarking for Medical AI Agents“ präsentiert einen wegweisenden Test für medizinische KI-Systeme, die komplexe Entscheidungen aus strukturierten elektronischen Gesundheitsakten (EHR) treffen sollen. Ziel ist es, die Zuverlässigkeit klinischer Entscheidungsunterstützung zu erhöhen, indem KI-Agenten gezielt auf typische Schwachstellen im mehrstufigen Denken geprüft werden.
ART nutzt echte Patientendaten, um Aufgaben zu generieren, die Schwellenwert‑Bewertungen, zeitliche Aggregationen und bedingte Logik erfordern. Durch die Analyse bestehender Benchmarks wurden drei Hauptfehlerkategorien identifiziert: fehlende Informationen (Retrieval‑Fehler), falsche Zusammenfassungen (Aggregation‑Fehler) und fehlerhafte Bedingungsprüfungen (Conditional‑Logic‑Fehler). Der vierstufige Prozess – Szenarioidentifikation, Aufgabengenerierung, Qualitätsprüfung und Bewertung – sorgt dafür, dass die Aufgaben sowohl klinisch relevant als auch vielfältig sind.
Bei der Bewertung von GPT‑4o‑mini und Claude 3.5 Sonnet auf 600 Aufgaben zeigte sich, dass die Modelle nach Prompt‑Optimierung nahezu fehlerfrei Informationen abrufen können. Allerdings blieben erhebliche Lücken in der Aggregation (28 – 64 %) und der Schwellenwert‑Logik (32 – 38 %) bestehen. Diese Ergebnisse verdeutlichen, wo aktuelle Sprachmodelle noch Nachholbedarf haben, und zeigen, wie ART als Katalysator für die Entwicklung zuverlässigerer klinischer KI-Agenten dienen kann.
Durch die gezielte Aufdeckung von Fehlerquellen in action‑orientierten EHR‑Aufgaben ebnet ART den Weg zu KI-Systemen, die die kognitive Belastung von Fachkräften reduzieren und die administrative Effizienz in stark beanspruchten Versorgungseinrichtungen steigern. Die Veröffentlichung markiert einen wichtigen Schritt hin zu sichereren, vertrauenswürdigeren KI‑gestützten Gesundheitslösungen.