KI-Modelle zeigen große Lücken in Frauenheilkunde – Benchmark enthüllt 60 % Fehler
Mit der zunehmenden Nutzung von großen Sprachmodellen (LLMs) als primäre Informationsquelle im Gesundheitswesen ist ihre Zuverlässigkeit in der Frauenheilkunde bislang kaum untersucht worden. Ein neues Benchmark-Tool, das Women’s Health Benchmark (WHB), bewertet nun explizit die Leistung von LLMs in diesem Fachgebiet.