LLM‑Selbsterklärungen verbessern Vorhersage von Modellverhalten
Selbsterklärungen großer Sprachmodelle (LLMs) gelten als vielversprechendes Mittel zur Überwachung von KI, doch ihre Treue zum eigentlichen Denkprozess der Modelle ist bislang kaum geklärt. Traditionelle Messgrößen für…