GLEAN: Neue Methode zur zuverlässigen Verifikation von KI-Agenten in der Medizin

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer Zeit, in der KI‑Agenten zunehmend Entscheidungen mit hohem Risiko treffen – etwa bei klinischen Diagnosen – ist eine robuste Verifikation ihrer Ergebnisse entscheidend. Das neue Framework GLEAN (Guideline‑Grounded Evidence Accumulation) bietet genau das: Es nutzt von Experten kuratierte Protokolle, um Schritt für Schritt die Übereinstimmung eines Agenten mit den geltenden Fachrichtlinien zu prüfen. Dabei werden die Bewertungen mehrerer Richtlinien zu überwachenden Merkmalen zusammengefasst, die entlang der Entscheidungs­trajektorien akkumuliert und anschließend mittels Bayesscher logistischer Regression in Wahrscheinlichkeiten für die Richtigkeit umgewandelt.

Ein besonderes Merkmal von GLEAN ist die aktive Verifikation: Sobald die Unsicherheit einer Vorhersage einen Schwellenwert überschreitet, sammelt das System gezielt zusätzliche Belege, indem es die Richtlinienabdeckung erweitert und differenzierte Kontrollen durchführt. Diese dynamische Evidenzsammlung sorgt dafür, dass nur bei wirklich unklaren Fällen zusätzliche Ressourcen eingesetzt werden.

In umfangreichen Tests mit klinischen Diagnoseagenten, die auf drei Krankheiten aus dem MIMIC‑IV‑Datensatz basieren, übertraf GLEAN die bisher beste Vergleichs‑Methode um 12 % in der AUROC und verringerte den Brier‑Score um 50 %. Diese Ergebnisse zeigen, dass GLEAN sowohl die Trennschärfe als auch die Kalibrierung der Agentenentscheidungen deutlich verbessert. Ergänzend bestätigten klinische Experten in einer Studie die praktische Nützlichkeit von GLEAN, was die Akzeptanz in realen medizinischen Umgebungen weiter stärkt.