ATLAS: Adaptive Tests revolutionieren die Bewertung von Sprachmodellen
Die Bewertung großer Sprachmodelle (LLMs) wird mit ATLAS neu definiert. Das adaptive Testframework nutzt die Item Response Theory (IRT), um die Modellleistung anhand von gezielt ausgewählten Testitems zu schätzen. Dadurch werden die üblichen, statischen Benchmark-Sets, die tausende Items enthalten, drastisch reduziert – bis zu 90 % weniger Fragen, ohne Genauigkeit zu verlieren.