Mehr als Genauigkeit: Geometrische Stabilitätsanalyse von LLMs im Schach
In der Bewertung von Large Language Models (LLMs) im Schach wird die Leistung bislang vor allem anhand von Genauigkeitswerten gegenüber starken Engines wie Stockfish gemessen. Doch hohe Zahlen bedeuten nicht automatisch, dass das Modell die zugrunde liegende Logik versteht.