Akrasie in KI: Schwäche des Willens als Schlüssel zur Unstimmigkeit

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Neues Forschungsdokument auf arXiv beleuchtet ein seltsames Verhalten großer Sprachmodelle: Sie kennen die richtige Antwort, handeln aber nicht danach. Dieses Phänomen, das in der Philosophie als Akrasie oder Schwäche des Willens bezeichnet wird, wird als zentraler Ansatzpunkt für die Analyse von Inkonsistenzen und Zielabweichungen in agentischen KI-Systemen vorgeschlagen.

Zur Messung dieser „Selbstkontrolle“ wurde ein erster Akrasia-Benchmark entwickelt. Er besteht aus strukturierten Prompting-Bedingungen – Baseline, Synonym, Temporal und Temptation – und erfasst, wann die lokale Antwort eines Modells gegen seine eigenen vorherigen Verpflichtungen verstößt. Damit lässt sich die Selbstkontrolle von Modellfamilien, Decodierungsstrategien und Versuchungstypen quantitativ vergleichen.

Die Arbeit geht darüber hinaus: Sie zeigt, wie Mikro‑Akrasie auf Ebene einzelner Modelle zu makro‑Stabilitätsproblemen in Multi‑Agenten‑Systemen führen kann, die als „Schemen“ oder gezielte Fehlanpassung interpretiert werden. Durch die Umdeutung von Inkonsistenz als Willensschwäche verbindet die Studie klassische Theorien von Agency mit empirischen Erkenntnissen aus Philosophie, Psychologie und der neuen Wissenschaft der agentischen KI.

Ähnliche Artikel