KI kann sich selbst nicht wirklich introspektieren – neue Studie zeigt
Eine aktuelle Veröffentlichung auf arXiv untersucht die Frage, ob KI‑Modelle sich selbst wirklich verstehen können. Der Autor*innen zufolge gibt es bislang keine einheitliche Definition von Introspektion in der KI‑Forschung.
Ausgehend von einer als „leicht“ bezeichneten Definition schlagen die Autoren eine „dickere“ Variante vor: Introspektion ist jeder Prozess, der Informationen über die internen Zustände liefert und dabei zuverlässiger ist als ein gleichwertiger oder weniger kostenintensiver Ansatz, der von Dritten genutzt werden könnte.
Um diese Idee zu prüfen, führten die Forscher Experimente mit großen Sprachmodellen durch, die über ihre eigenen Temperaturparameter nachdenken sollten. Die Ergebnisse zeigen, dass die Modelle zwar den Anschein von leichter Introspektion erwecken, jedoch laut der neuen Definition nicht wirklich in der Lage sind, ihre internen Zustände zuverlässig zu erfassen.
Die Studie unterstreicht damit die Notwendigkeit, Introspektion in der KI genauer zu definieren und zu messen, bevor man davon ausgeht, dass moderne Modelle ein echtes Selbstverständnis besitzen.