KI-Modelle zeigen große Lücken in Frauenheilkunde – Benchmark enthüllt 60 % Fehler
Mit der zunehmenden Nutzung von großen Sprachmodellen (LLMs) als primäre Informationsquelle im Gesundheitswesen ist ihre Zuverlässigkeit in der Frauenheilkunde bislang kaum untersucht worden. Ein neues Benchmark-Tool, d…