AgentsEval: Mehr Transparenz bei der Bewertung medizinischer Bildberichterstattung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Bewertung der klinischen Richtigkeit und der logischen Kohärenz von automatisch generierten medizinischen Bildberichten ist ein zentrales, bislang ungelöstes Problem. Traditionelle Methoden erfassen oft nicht die strukturierten diagnostischen Überlegungen, die Radiologen bei ihrer Interpretation nutzen, was zu unzuverlässigen und klinisch wenig relevanten Urteilen führt.

Mit AgentsEval wird ein neues, mehrschichtiges Evaluationsmodell vorgestellt, das den kollaborativen Diagnoseprozess von Radiologen nachahmt. Das System teilt die Bewertung in nachvollziehbare Schritte auf: Definition von Bewertungskriterien, Extraktion relevanter Beweise, Ausrichtung der Ergebnisse und Berechnung eines Konsistenzwertes. Dadurch entstehen transparente Begründungspfade und strukturierte Rückmeldungen, die die klinische Vertrauenswürdigkeit erhöhen.

Zur Validierung wurde ein umfangreiches Benchmarking-Set entwickelt, das fünf medizinische Berichtsdatenbanken mit unterschiedlichen Bildmodalitäten und gezielten semantischen Variationen umfasst. Die Experimente zeigen, dass AgentsEval klinisch ausgerichtete, semantisch treue und interpretierbare Bewertungen liefert, die auch bei paraphrastischen, semantischen und stilistischen Störungen stabil bleiben.

AgentsEval markiert einen wichtigen Schritt hin zu einer transparenten und klinisch fundierten Bewertung von Bildberichterstellungsmodellen. Durch die Förderung von nachvollziehbaren und vertrauenswürdigen Ergebnissen unterstützt es die sichere Integration großer Sprachmodelle in die klinische Praxis.

Ähnliche Artikel