Neues Prinzipien-Framework verbessert KI-gestützte Gesundheitsanwendungen
Ein neues, prinzipienbasiertes Verfahren zur Bewertung von großen Sprachmodellen (LLMs) für Gesundheit und Wellness wurde vorgestellt. Das System, genannt SHARP – Safety, Helpfulness, Accuracy, Relevance, Personalization – verbindet technische Tests, menschliche Bewertungen durch Allgemeinmediziner und Fachärzte sowie gezielte Angriffe, um die Sicherheit, Nützlichkeit und Genauigkeit von KI‑Anwendungen zu prüfen.
Im Rahmen der Studie wurde die „Fitbit Insights Explorer“ entwickelt, ein LLM‑gestütztes Tool, das Nutzern hilft, ihre persönlichen Gesundheitsdaten zu interpretieren. Durch einen mehrstufigen Rollout mit über 13.000 freiwilligen Teilnehmern konnten Probleme entdeckt werden, die bei ersten Tests nicht sichtbar waren. Die gewonnenen Erkenntnisse führten zu gezielten Verbesserungen des Systems.
Das Ergebnis ist ein praxisnahes, wiederholbares Vorgehen für die verantwortungsvolle Entwicklung und den Einsatz von KI‑basierten Gesundheitsanwendungen. Die Autoren betonen, dass technische Tests allein nicht ausreichen – echte Nutzerfeedbacks sind entscheidend, um sichere und effektive Lösungen zu schaffen.