KI-Antworten in der Psychiatrie: Experten streiten über Sicherheit

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Untersuchung, die auf arXiv veröffentlicht wurde, zeigt, dass selbst hochqualifizierte Psychiater bei der Bewertung von KI-generierten Antworten zu psychischen Gesundheitsfragen stark uneinigt sind. Die Studie testete die Annahme, dass Expertenmeinungen, wenn sie aggregiert werden, als zuverlässige „Ground‑Truth“-Daten für das Training und die Bewertung von KI-Systemen dienen können.

Drei zertifizierte Psychiater bewerteten unabhängig die Antworten eines großen Sprachmodells anhand eines kalibrierten Rubrics. Trotz einheitlicher Schulung und gemeinsamer Anweisungen war die Interrater‑Zuverlässigkeit konstant niedrig, mit einem Intraclass‑Correlation‑Coefficient (ICC) zwischen 0,087 und 0,295 – weit unter den für kritische Bewertungen erforderlichen Schwellenwerten. Die größte Diskrepanz zeigte sich bei den sicherheitskritischsten Punkten, insbesondere bei Antworten zu Suizid und Selbstverletzung.

Qualitative Interviews ergaben, dass die Uneinigkeit nicht auf Messfehler zurückzuführen ist, sondern auf unterschiedliche klinische Rahmenwerke der Experten. Einige legen den Fokus auf Sicherheit, andere auf patientenzentrierte Interaktion oder kulturelle Sensibilität. Diese strukturierten, aber widersprüchlichen Perspektiven führen dazu, dass aggregierte Labels die individuellen, professionellen Philosophien verwischen und somit die Qualität der KI‑Sicherheitstests beeinträchtigen.

Die Ergebnisse deuten darauf hin, dass die Bewertung von KI‑Antworten im Gesundheitsbereich ein komplexes soziotechnisches Phänomen ist, bei dem fachliche Erfahrung zu tiefgreifenden, prinzipienbasierten Divergenzen führt. Für die Entwicklung sicherer KI‑Systeme bedeutet dies, dass reine Expertenaggregation nicht ausreicht und alternative Bewertungsansätze erforderlich sind, um die Vielfalt klinischer Sichtweisen angemessen zu berücksichtigen.

Ähnliche Artikel