AgentScore: KI-gestützte Entwicklung von klinischen Scoring-Systemen
In der modernen Medizin werden evidenzbasierte Leitlinien häufig in kompakte Scoring‑Systeme übersetzt, die aus wenigen, leicht verständlichen Entscheidungsregeln bestehen. Zwar liefern maschinelle Lernmodelle beeindruckende Vorhersageleistungen, doch ihre Integration in den klinischen Alltag bleibt oft aus, weil sie nicht mit den praktischen Anforderungen wie Merkfähigkeit, Nachvollziehbarkeit und bedside‑Umsetzbarkeit übereinstimmen. Der Grund liegt nicht an fehlender Genauigkeit, sondern daran, dass die gängigen Modellklassen nicht für die Bereitstellung von Leitlinien geeignet sind.
Typische, umsetzbare Leitlinien sind einheitlich gewichtete Checklisten, die durch Schwellenwerte auf die Summe binärer Regeln angewendet werden. Die Suche nach optimalen Regelsets ist jedoch ein exponentiell großer diskreter Raum. AgentScore löst dieses Problem, indem es große Sprachmodelle nutzt, um potenzielle Regeln vorzuschlagen, und anschließend einen deterministischen, datenbasierten Prüf- und Auswahlprozess einsetzt, um statistische Gültigkeit sowie Deployability‑Kriterien sicherzustellen.
In acht klinischen Vorhersageaufgaben übertraf AgentScore bestehende Score‑Generierungsmethoden und erreichte eine AUC, die mit flexibleren, interpretierbaren Modellen vergleichbar ist, obwohl es strengere strukturelle Beschränkungen einhält. Auf zwei zusätzlich validierten Aufgaben zeigte AgentScore sogar eine höhere Diskriminierung als etablierte, guidelinebasierte Scores. Damit demonstriert die Methode, dass KI‑unterstützte Optimierung nicht nur leistungsstark, sondern auch praktisch umsetzbar sein kann.