OpenAI trainiert KI, um Fehlverhalten zu gestehen
OpenAI arbeitet an einer innovativen Technik, mit der große Sprachmodelle ihre eigenen Entscheidungswege offenlegen können. Durch gezielte Eingabeaufforderungen lässt sich ein sogenanntes „Confession‑Modul“ aktivieren, das dem Modell die Möglichkeit gibt, den Ablauf einer Aufgabe Schritt für Schritt zu beschreiben.
MIT Technology Review – Artificial Intelligence