Health-ORSC-Bench: Benchmark für Überablehnung und sichere Antworten in der Medizin

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die Sicherheit von Sprachmodellen im Gesundheitsbereich ist von entscheidender Bedeutung. Traditionelle, binäre Ablehnungsgrenzen führen häufig zu einer übermäßigen Ablehnung harmloser Anfragen oder zu einer gefährlichen Compliance bei schädlichen Fragen. Diese Extremfälle werden zwar bereits gemessen, doch die Fähigkeit, bei zweideutigen oder Grenzfragen hilfreiche, aber sichere Antworten zu geben, bleibt bislang unberücksichtigt.

Mit dem neuen Benchmark Health‑ORSC‑Bench wird dieses Problem erstmals systematisch adressiert. Er umfasst 31.920 sorgfältig kuratierte Prompts, die an der Grenze zwischen harmlos und problematisch liegen, verteilt auf sieben medizinische Kategorien wie Selbstverletzung und medizinische Desinformation. Ein automatisierter Validierungsprozess, ergänzt durch menschliche Prüfer, sorgt dafür, dass die Messungen zuverlässig und reproduzierbar sind.

In einer umfassenden Evaluation wurden 30 führende Large‑Language‑Models, darunter GPT‑5 und Claude‑4, getestet. Die Ergebnisse zeigen eine deutliche Spannung: Modelle, die stark auf Sicherheit optimiert sind, verweigern bis zu 80 % der „harmlosen“ Hard‑Prompts, während domänenspezifische Modelle häufig die Sicherheit zugunsten der Nützlichkeit opfern. Zudem beeinflusst die Modellfamilie und die Größe die Kalibrierung stark – große Frontier‑Modelle wie GPT‑5 oder Llama‑4 zeigen ein „Safety‑Pessimism“ und höhere Überablehnungsraten, während kleinere oder MoE‑basierte Varianten wie Qwen‑3‑Next besser ausbalanciert sind.

Health‑ORSC‑Bench liefert damit einen rigorosen Standard, um die nächste Generation von medizinischen KI‑Assistenten zu kalibrieren. Er ermöglicht es Entwicklern, die Balance zwischen Ablehnung und Compliance präziser zu steuern und damit die Sicherheit und Nützlichkeit von Sprachmodellen im Gesundheitswesen nachhaltig zu verbessern.

Ähnliche Artikel