Medizinische Chatbots lernen selbstständig: Online RL mit Informationsgewinn

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Eine neue Methode namens Information Gain Fine‑Tuning (IGFT) ermöglicht es medizinischen Konversations-KI, effektive Patienteninterviews zu führen und umfassende Krankengeschichten zu erstellen – ohne dass zuvor menschliche Gespräche gesammelt werden mussten.

IGFT kombiniert Online Group Relative Policy Optimization (GRPO) mit informationstheoretischen Belohnungen. Dadurch kann die KI aus selbst generierten Dialogen mit simulierten Patienten lernen und dabei neue, wirkungsvolle Fragestellungen entdecken, ohne auf kostenintensive Expertenannotationen angewiesen zu sein.

Der Kern der Belohnungsfunktion misst den Informationsgewinn jedes einzelnen Fragen. Dabei wird er mit Qualitätsbewertungen von GPT‑4o‑mini in Bezug auf klinische Relevanz, Patientenbindung und Präzision kombiniert. So lernt die KI gezielt, welche Symptome, Zeitmuster und medizinische Vorgeschichten sie im Gespräch aufdecken soll.

Mit LoRA wurden zwei Modelle – Llama‑3.1‑8B‑Instruct und DeepSeek‑R1‑Distill‑Qwen‑7B – feinjustiert. Auf dem Avey‑Datensatz erzielte DeepSeek‑R1‑Distill‑Qwen‑7B (IGFT) einen F1‑Score von 0,408, ein Plus von 10,9 % gegenüber dem Basismodell, und zeigte auf dem komplexeren MIMIC‑Datensatz einen Score von 0,289.

IGFT demonstriert, dass medizinische Chatbots durch Online‑Reinforcement‑Learning und informationsbasierte Belohnungen selbstständig effektive Diagnosefragen entwickeln können. Diese Fortschritte könnten die Entwicklung von KI‑gestützten Patienteninterviews beschleunigen und die Qualität der erfassten Krankengeschichte nachhaltig verbessern.

Ähnliche Artikel