SAE: Erklärbare Merkmale prognostizieren LLM-Übertragbarkeit ohne Training

In den letzten Jahren haben vortrainierte große Sprachmodelle in einer Vielzahl von Aufgaben beeindruckende Erfolge erzielt. Doch ihr wirklicher Nutzen in konkreten Anwendungen hängt nicht nur vom selbstüberwachten Pre‑Training ab, sondern auch stark vom anschließenden Post‑Training, das die Modelle an spezifische Daten und Ziele anpasst. Dieser Schritt führt zwangsläufig zu Modellverschiebungen, deren Einfluss auf die Leistung in unterschiedlichen Domänen bleibt bislang wenig verstanden.

Um diese Black‑Box zu öffnen, stellen die Forscher einen neuen Messwert vor: den SAE‑basierten Transferability Score (STS). STS nutzt sparse Autoencoder (SAE), um die nach dem Post‑Training auftretenden Verschiebungen in den Repräsentationen zu identifizieren und deren Korrelationen mit Ziel‑Domänen zu berechnen. Auf diese Weise lässt sich die Übertragbarkeit von LLMs bereits vor dem Fein‑Tuning zuverlässig einschätzen.

Bei der Anwendung auf überwachte Fein‑Tuning‑Szenarien zeigte STS eine bemerkenswerte Vorhersagekraft: Die Pearson‑Korrelation zwischen dem STS‑Wert und den tatsächlichen Leistungsänderungen lag bei über 0,7. Das bedeutet, dass der Score ein starkes Signal dafür liefert, wie gut ein Modell in einer neuen Domäne performen wird, ohne dass ein kostenintensives Training erforderlich ist.

Darüber hinaus haben die Autoren erste Schritte unternommen, um STS auf Reinforcement‑Learning‑Aufgaben zu übertragen. Auch hier deutet die Analyse darauf hin, dass die identifizierten SAE‑Dimensionen wertvolle Hinweise auf die zukünftige Transferfähigkeit liefern können.

Mit STS erhalten Entwickler ein interpretierbares Werkzeug, das Post‑Training‑Strategien gezielt steuern kann. Der Code ist öffentlich verfügbar unter https://github.com/PKU-ML/STS und ermöglicht es, die Übertragbarkeit von LLMs schon vor dem Fein‑Tuning zu prognostizieren und so Ressourcen effizienter einzusetzen.

🍪 Cookie-Einstellungen