Neue Methode enthüllt, welche Tokens LLMs bei Vorhersagen beeinflussen
Forscher haben eine neue Technik namens Jacobian Scopes entwickelt, die es ermöglicht, genau zu bestimmen, welche einzelnen Tokens in einem Text die Vorhersagen von großen Sprachmodellen (LLMs) am stärksten beeinflussen. Durch die Analyse der linearen Beziehung zwischen dem Endzustand des Modells und seinen Eingabetokens liefert die Methode eine klare, tokenbasierte Attribution.
Die Autoren stellen drei Varianten vor – Semantic, Fisher und Temperature Scopes. Semantic Scopes messen die Sensitivität bestimmter Logits, Fisher Scopes berücksichtigen die gesamte Vorhersageverteilung, während Temperature Scopes die Modellzuversicht (inverse Temperatur) untersuchen. Alle Varianten beruhen auf Gradientenberechnungen und sind damit besonders effizient.
In einer Reihe von Fallstudien, die von Anweisungsverständnis über Übersetzungen bis hin zu In‑Context‑Learning (ICL) reichen, konnten die Forscher überraschende Erkenntnisse gewinnen. So zeigte sich, dass Jacobian Scopes auf subtile politische Vorurteile hinweisen können, die in den Trainingsdaten verborgen sind. Darüber hinaus liefern die Ergebnisse neue Einblicke in die Mechanismen, die hinter der in‑Kontext‑Zeitreihenprognose stehen.
Der komplette Code sowie interaktive Demonstrationen sind frei verfügbar unter https://github.com/AntonioLiu97/JacobianScopes. Diese Werkzeuge eröffnen Forschern und Entwicklern ein neues, transparentes Mittel, um die Entscheidungsprozesse von LLMs besser zu verstehen und zu kontrollieren.