Adaptive Tests senken Kosten bei Bewertung von Sprachmodellen im Gesundheitswesen
Die rasante Verbreitung großer Sprachmodelle (LLMs) im Gesundheitswesen erfordert neue, skalierbare Bewertungsmethoden. Traditionelle Benchmarks sind teuer, anfällig für Datenkontamination und bieten keine kalibrierten…