MASS: LLMs adaptieren selbstständig mit synthetischen Trainingsdaten
Große Sprachmodelle (LLMs) sind starke Allzweck-Reasoner, die in vielen unterschiedlichen Domänen und Aufgaben eingesetzt werden. Damit sie auch bei neuen, unbekannten Problemen schnell und effizient reagieren können, ist die Fähigkeit zur Anpassung und Selbstverbesserung während der Testphase von entscheidender Bedeutung.
Hier stellt das neue Framework MASS (Meta‑Adaptation with Self‑Synthesis) einen innovativen Ansatz vor: LLMs erzeugen eigenständig problem‑spezifische synthetische Trainingsdaten und führen gezielte Selbstupdates durch, die auf die Optimierung der Leistung bei der Inferenz ausgerichtet sind.
Der Lernprozess erfolgt über eine Bilevel‑Optimierung. Im inneren Loop passt das Modell anhand der selbst generierten Beispiele an, während der äußere Loop Meta‑Signals und Belohnungen für die nach der Update‑Phase erzielte Aufgabenleistung lernt. Die synthetischen Daten werden mit skalierbaren Meta‑Gradienten optimiert, wobei der Downstream‑Loss durch die inneren Updates zurückpropagiert wird, um nützliche Generationen zu belohnen.
Experimentelle Tests im Bereich mathematischer Problemlösung zeigen, dass MASS in der Lage ist, pro Instanz individuelle Lernkurse zu synthetisieren, die zu effektiven und daten‑effizienten Anpassungen während der Testphase führen. Diese Ergebnisse unterstreichen das Potenzial von MASS, LLMs in dynamischen Einsatzumgebungen noch leistungsfähiger zu machen.