Stanford präsentiert MedAgentBench: Benchmark für KI-Agenten im Gesundheitswesen
Ein Team von Forschern der Stanford University hat MedAgentBench veröffentlicht, ein neues Benchmark-Set zur Bewertung von Large‑Language‑Model‑Agenten im Gesundheitswesen.
Im Gegensatz zu bisherigen Frage‑Antwort‑Datensätzen bietet MedAgentBench eine virtuelle elektronische Gesundheitsakte (EHR), in der KI-Systeme interagieren, planen und mehrstufige klinische Aufgaben ausführen müssen.
Diese Entwicklung markiert einen wichtigen Schritt weg von statischen Testfragen hin zu dynamischen, realen Szenarien und bringt KI‑Agenten näher an praktische klinische Anwendungen.