Neues Benchmark MLB bewertet KI-Modelle in der klinischen Praxis
Die rasante Verbreitung von Large Language Models (LLMs) eröffnet enormes Potenzial für die Gesundheitsversorgung, doch die praktische Umsetzung bleibt bislang durch fehlende Bewertungsrahmen für die reale klinische Nützlichkeit eingeschränkt. Das neue Medical LLM Benchmark (MLB) schließt diese Lücke, indem es LLMs nicht nur auf statischem Wissen prüft, sondern auch ihre Fähigkeit zur Szenario‑basierten Entscheidungsfindung in der Praxis bewertet.