<p>Large Language Models (LLMs) stoßen häufig an die Grenze ihres „Wissens-Cutoffs“, weil ihre festgelegten Parameter keine neuen Informationen direkt aufnehmen können. Traditionell wird dafür Supervised Fine‑Tuning (SFT) eingesetzt, das zwar Fakten aktualisiert, aber selten die Fähigkeit verbessert, diese neuen Daten in Antworten oder Entscheidungen zu nutzen.</p>
Reinforcement Learning (RL) kann hingegen das nötige Denkvermögen vermitteln, ist jedoch wegen des hohen Rechenaufwands kaum für schnelle Online‑Anpassungen geeignet. Unsere Untersuchungen zeigen, dass die Parameteränderungen durch SFT und RL nahezu orthogonal zueinander stehen. Daraus entstand das Konzept Parametric Skill Transfer (PaST), das modulare Fertigkeiten effizient in ein Modell einbettet.
PaST extrahiert einen domänenunabhängigen Skill‑Vector aus einer Quelldomäne und injiziert ihn linear in ein Zielmodell, das bereits mit leichtem SFT auf neue Daten trainiert wurde. In Tests mit Frage‑Antwort‑Benchmarks wie SQuAD und LooGLE sowie mit Tool‑Use‑Tests (ToolBench) übertrifft PaST die aktuelle SFT‑Basis um bis zu 9,9 Punkte bei SQuAD, erzielt einen 8,0‑Punkte‑Zuwachs bei LooGLE und steigert die ToolBench‑Erfolgsrate im Zero‑Shot‑Modus durchschnittlich um 10,3 Punkte.
Die Ergebnisse demonstrieren, dass PaST nicht nur die Wissensanpassung beschleunigt, sondern auch die Skalierbarkeit und Übertragbarkeit von Fertigkeiten über verschiedene Domänen hinweg deutlich verbessert.