Bayessches Meta-Learning verbessert LoRA-Feinabstimmung großer Sprachmodelle
Die Feinabstimmung großer Sprachmodelle (LLMs) mit Low‑Rank‑Adaptation (LoRA) gilt als kostengünstige Methode, um Modelle an spezifische Datensätze anzupassen. Ein Problem bleibt jedoch: Wie gut generalisiert das feinabgestimmte Modell auf unbekannte Daten?
Aktuelle Ansätze zur Verbesserung der Generalisierung – etwa durch in‑Context‑Prompts oder klassische Meta‑Learning‑Methoden – sind oft mit hohem Speicher- und Rechenaufwand verbunden. Sie erfordern lange Kontextfenster, das Speichern mehrerer Parameter‑Kopien oder aufwändige zweite‑Ordnung‑Gradienten.
Die neue Methode „Amortized Bayesian Meta‑Learning for LoRA“ (ABMLL) kombiniert die Vorteile des amortisierten bayesschen Meta‑Learnings mit der Skalierbarkeit großer Modelle. Durch die Umformulierung von Aufgaben‑spezifischen und globalen Parametern im LoRA‑Rahmen und die Einführung neuer Hyperparameter wird ein Gleichgewicht zwischen Rekonstruktionsgenauigkeit und der Treue der Aufgaben‑spezifischen Parameter zur globalen Basis erreicht.
ABMLL demonstriert eine effektive Generalisierung und funktioniert problemlos mit Modellen wie Llama3‑8B. Dank des bayesschen Rahmens liefert die Methode zudem verbesserte Unsicherheitsabschätzungen. Auf den Benchmarks Unified‑QA und CrossFit übertrifft ABMLL bestehende Verfahren sowohl in der Genauigkeit als auch im erwarteten Kalibrierungsfehler.