KI mit Moral: Neue Architekturansätze für ethische Sprachmodelle
Sprachmodelle wie GPT-4 beeinflussen zunehmend menschliche Entscheidungen. Damit sie verantwortungsbewusst handeln können, muss die Verarbeitung moralischer Inhalte in ihre Kernarchitektur integriert werden. Aktuelle Ansätze setzen vor allem auf feine Anpassungen und Lernmethoden, die von menschlichem Feedback profitieren – ein eher „bottom‑up“-Ansatz.
Die vorgestellte Arbeit schlägt einen radikalen Wechsel vor: Moral soll direkt in die Mechanismen von Transformer‑Modellen eingebettet werden. Dabei wird die Aufmerksamkeit als dynamisches Bindeglied zwischen Struktur und Verarbeitung neu definiert, im Gegensatz zu den linearen Aufmerksamkeitssystemen, die in der Psychologie üblich sind. Durch die Nutzung biologisch inspirierten Analogien soll die kognitive Verarbeitung verbessert werden.
Ein zentrales Element ist die Philosophie von Iris Murdoch, die „liebevolle Aufmerksamkeit“ als Grundlage moralischer Transformation beschreibt. Diese Idee wird in technische Konzepte übersetzt, um zu zeigen, wie ein Sprachmodell durch gezielte Architekturgestaltung moralische Perspektiven einnehmen kann. Die Autoren prüfen mehrere mögliche Implementierungen und diskutieren deren Vor- und Nachteile.
Obwohl die Untersuchung noch explorativ ist, liefert sie drei wesentliche Beiträge: Erstens ein neues Modell der Aufmerksamkeit als dynamisches System; zweitens die Übertragung Murdochs Theorie in konkrete technische Pfade; und drittens ein Rahmen, der die Einbettung von Moral in LLM‑Architekturen systematisch ermöglicht. Die Arbeit betont zugleich die Grenzen der aktuellen Analyse und ruft zu weiterführender Forschung auf.