Forschung
Benchmark‑Gap bei Gesundheits‑LLMs: Analyse zeigt fehlende klinische Relevanz
Eine neue Analyse aus dem arXiv‑Repository hat einen gravierenden „Validity Gap“ in den gängigen Benchmarks für medizinische Sprachmodelle…
arXiv – cs.AI