KI-Analyse von Borderline: GPT, Gemini und Claude im Vergleich
Eine neue Studie aus dem arXiv-Repository untersucht, wie große Sprachmodelle (LLMs) die qualitative Analyse von Borderline-Persönlichkeitsstörung (BPD) unterstützen können. Dabei wird BPD als Störung der Zeitlichkeit und Selbstwahrnehmung betrachtet.
Die Forscher haben zuvor 24 Patienteninterviews manuell thematisch ausgewertet. Anschließend wurden drei LLMs – OpenAI GPT‑4o, Google Gemini 2.5 Pro und Anthropic Claude Opus 4 – mit Anweisungen gefüttert, den Interpretationsstil der menschlichen Analysten zu imitieren. Die Ergebnisse wurden von Experten aus den Bereichen Phänomenologie und klinische Psychologie sowohl blind als auch offen bewertet.
Die Bewertung umfasste semantische Übereinstimmung, Jaccard‑Koeffizienten sowie multidimensionale Validitätsskalen (Glaubwürdigkeit, Kohärenz, Substanz und Datenfundament). Die Übereinstimmung mit der menschlichen Analyse variierte stark: GPT zeigte 0 %, Claude 42 % und Gemini 58 %. Trotz niedriger Jaccard‑Werte (0,21–0,28) konnten die Modelle Themen identifizieren, die von den Menschen übersehen wurden.
Gemini erzielte die höchsten Validitätspunkte und wurde von blinden Experten als menschlich bewertet. Alle Scores korrelierten stark (R > 0,78) mit der Textmenge pro Thema, was die potenzielle Rolle von KI‑unterstützter Analyse bei der Reduzierung menschlicher Interpretationsbias unterstreicht.