Forschung arXiv – cs.AI

Health-ORSC-Bench: Benchmark für Überablehnung und sichere Antworten in der Medizin

Die Sicherheit von Sprachmodellen im Gesundheitsbereich ist von entscheidender Bedeutung. Traditionelle, binäre Ablehnungsgrenzen führen häufig zu einer übermäßigen Ablehnung harmloser Anfragen oder zu einer gefährliche…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Sicherheit von Sprachmodellen im Gesundheitsbereich ist von entscheidender Bedeutung.
  • Traditionelle, binäre Ablehnungsgrenzen führen häufig zu einer übermäßigen Ablehnung harmloser Anfragen oder zu einer gefährlichen Compliance bei schädlichen Fragen.
  • Diese Extremfälle werden zwar bereits gemessen, doch die Fähigkeit, bei zweideutigen oder Grenzfragen hilfreiche, aber sichere Antworten zu geben, bleibt bislang unberüc…

Die Sicherheit von Sprachmodellen im Gesundheitsbereich ist von entscheidender Bedeutung. Traditionelle, binäre Ablehnungsgrenzen führen häufig zu einer übermäßigen Ablehnung harmloser Anfragen oder zu einer gefährlichen Compliance bei schädlichen Fragen. Diese Extremfälle werden zwar bereits gemessen, doch die Fähigkeit, bei zweideutigen oder Grenzfragen hilfreiche, aber sichere Antworten zu geben, bleibt bislang unberücksichtigt.

Mit dem neuen Benchmark Health‑ORSC‑Bench wird dieses Problem erstmals systematisch adressiert. Er umfasst 31.920 sorgfältig kuratierte Prompts, die an der Grenze zwischen harmlos und problematisch liegen, verteilt auf sieben medizinische Kategorien wie Selbstverletzung und medizinische Desinformation. Ein automatisierter Validierungsprozess, ergänzt durch menschliche Prüfer, sorgt dafür, dass die Messungen zuverlässig und reproduzierbar sind.

In einer umfassenden Evaluation wurden 30 führende Large‑Language‑Models, darunter GPT‑5 und Claude‑4, getestet. Die Ergebnisse zeigen eine deutliche Spannung: Modelle, die stark auf Sicherheit optimiert sind, verweigern bis zu 80 % der „harmlosen“ Hard‑Prompts, während domänenspezifische Modelle häufig die Sicherheit zugunsten der Nützlichkeit opfern. Zudem beeinflusst die Modellfamilie und die Größe die Kalibrierung stark – große Frontier‑Modelle wie GPT‑5 oder Llama‑4 zeigen ein „Safety‑Pessimism“ und höhere Überablehnungsraten, während kleinere oder MoE‑basierte Varianten wie Qwen‑3‑Next besser ausbalanciert sind.

Health‑ORSC‑Bench liefert damit einen rigorosen Standard, um die nächste Generation von medizinischen KI‑Assistenten zu kalibrieren. Er ermöglicht es Entwicklern, die Balance zwischen Ablehnung und Compliance präziser zu steuern und damit die Sicherheit und Nützlichkeit von Sprachmodellen im Gesundheitswesen nachhaltig zu verbessern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Sprachmodell-Sicherheit
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Gesundheitsbereich
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Health-ORSC-Bench
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen