LLM-Modelle: Aufmerksamkeitsköpfe als spezialisierte Denkpartner

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs) haben in vielen Aufgaben die Spitzenposition erreicht, bleiben jedoch in ihrer Funktionsweise weitgehend undurchsichtig. Ein tieferes Verständnis der internen Abläufe ist entscheidend, um ihre Fähigkeit zum logischen Denken weiter zu verbessern.

Forscher haben ein neues Interpretationsframework entwickelt, das die Rollen einzelner Aufmerksamkeitsköpfe systematisch untersucht. Dazu wurde das Dataset CogQA erstellt, das komplexe Fragen in schrittweise Unterfragen zerlegt und jedem Schritt eine spezifische kognitive Funktion wie Abruf oder logisches Schließen zuordnet.

Durch einen mehrklassigen Probeansatz konnten die Autoren die Aufmerksamkeitsköpfe identifizieren, die für diese Funktionen zuständig sind. Die Analyse über mehrere LLM-Familien hinweg zeigte, dass die Köpfe funktionale Spezialisierungen aufweisen – sie sind spärlich, variieren in Anzahl und Verteilung je nach kognitiver Aufgabe und bilden interaktive, hierarchische Strukturen.

Die Studie demonstriert, dass das Entfernen dieser „kognitiven Köpfe“ die Leistung bei Denkaufgaben deutlich verschlechtert, während ihre gezielte Verstärkung die Genauigkeit erhöht. Diese Erkenntnisse liefern wertvolle Hinweise für die Modellarchitektur, das Training und die Feinabstimmung zukünftiger LLMs.

Ähnliche Artikel