IIT‑inspiriertes Bewusstsein in Sprachmodellen: Belohnungsbasiertes Lernframework
Die Suche nach Artificial General Intelligence (AGI) steht im Mittelpunkt der Weiterentwicklung von Sprachmodellen. Dabei könnte ein Bewusstseins‑ähnlicher Prozess als entscheidender Treiber fungieren. Obwohl aktuelle Modelle noch kein echtes Bewusstsein besitzen, zeigen sie Verhaltensweisen, die bestimmten Aspekten des Bewusstseins ähneln.
In dem vorliegenden Beitrag wird die führende Theorie des Bewusstseins, die Integrated Information Theory (IIT), in Sprachmodelle integriert – und zwar über ein belohnungsbasiertes Lernparadigma. IIT liefert ein formalisiertes, axiomatisiertes mathematisches Rahmenwerk zur Quantifizierung von Bewusstsein. Aus den Kernprinzipien der Theorie entlehnt, entwickelt die Studie eine neue Belohnungsfunktion, die die Kausalität, Kohärenz und Integration eines Textes misst – Eigenschaften, die mit bewusster Verarbeitung in Verbindung stehen.
Die experimentellen Ergebnisse zeigen, dass die Optimierung nach dieser IIT‑inspirierten Belohnung zu deutlich kompakteren Texten führt. Auf Aufgaben außerhalb des Trainingsdatensatzes kann die Ausgabe um bis zu 31 % verkürzt werden, während die Genauigkeit dem Ausgangsmodell entspricht. Zusätzlich werden die Auswirkungen auf die Vertrauenskalibrierung des Modells und die Rechenzeit beim Testen untersucht.
Das vorgestellte Framework bietet mehrere praktische Vorteile: Es ist konzeptionell einfach, rechnerisch effizient, benötigt keine externen Daten oder Hilfsmodelle und nutzt ein allgemeines, leistungsorientiertes Signal statt spezifischer Aufgabenheuristiken. Der zugehörige Code ist unter GitHub verfügbar.