Forschung
Health-ORSC-Bench: Benchmark für Überablehnung und sichere Antworten in der Medizin
Die Sicherheit von Sprachmodellen im Gesundheitsbereich ist von entscheidender Bedeutung. Traditionelle, binäre Ablehnungsgrenzen führen hä…
arXiv – cs.AI