OpenAI entwickelt sparsely wired Transformer für nachvollziehbare Modelle
Neurale Netzwerke treffen heute Entscheidungen in jedem Bereich – von Code‑Editoren bis hin zu Sicherheitssystemen. Doch wie lässt sich genau nachvollziehen, welche internen Schaltkreise jedes Verhalten antreiben? OpenAI hat dafür eine neue Studie zur mechanistischen Interpretierbarkeit gestartet. Dabei werden Sprachmodelle gezielt mit sparsamer interner Verkabelung trainiert, sodass ihr Verhalten in wenigen, klaren Schaltkreisen erklärt werden kann.