ATLAS: Adaptive Tests revolutionieren die Bewertung von Sprachmodellen
Die Bewertung großer Sprachmodelle (LLMs) wird mit ATLAS neu definiert. Das adaptive Testframework nutzt die Item Response Theory (IRT), um die Modellleistung anhand von gezielt ausgewählten Testitems zu schätzen. Dadur…