Vision‑Language‑Modelle simulieren virtuelle Patientenbefragung – Diagnosen verbessern
In der medizinischen KI-Forschung lag der Fokus bislang überwiegend auf Bildanalyse. Dadurch bleiben wichtige Patientenbeschwerden unberücksichtigt, was die diagnostische Genauigkeit einschränkt.
Um diesem Problem zu begegnen, wurde das Pre‑Consultation Dialogue Framework (PCDF) entwickelt. Es repliziert echte Arzt‑Patienten‑Gespräche, bei denen der Arzt schrittweise Fragen stellt, bevor er zu einer Diagnose gelangt.
Das System nutzt zwei Vision‑Language‑Modelle: DocVLM, das auf Basis des Bildes und des bisherigen Dialogs Folgefragen generiert, und PatientVLM, das mit einem Symptomprofil antwortet, das aus der tatsächlichen Diagnose abgeleitet wurde.
Eine kleine klinische Validierung zeigte, dass Fachärzte die synthetisch erzeugten Symptome als klinisch relevant, umfassend und realistisch bewerten. Diese Rückmeldungen bestätigen die Qualität der simulierten Gespräche.
Die erstellten, mehrtägigen Konsultationen werden anschließend verwendet, um DocVLM zu verfeinern. Im Vergleich zu Modellen, die ausschließlich auf Bilddaten trainiert wurden, erzielt die dialogbasierte Supervision signifikante Leistungssteigerungen und verdeutlicht den Wert realistischer Symptomabfrage für die Diagnose.