LoRA-Parameter: Lernrate skaliert je nach Rank – Transfer zu vollem Finetuning

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Low‑Rank Adaptation (LoRA) bleibt ein beliebtes Werkzeug, um große Modelle mit wenigen zusätzlichen Parametern zu verfeinern. Trotz des geringen Speicherverbrauchs zeigen die Trainingsdynamiken von LoRA überraschend komplexe Abhängigkeiten von Hyperparametern wie Initialisierung, Adapter‑Rank und Lernrate. Das bedeutet, dass Anwender die Lernrate jedes Mal neu abstimmen müssen, wenn sie den Rank ändern.

In der vorliegenden Arbeit wird ein neues theoretisches Konzept namens Maximal‑Update Adaptation (μA) vorgestellt. μA baut auf der Maximal‑Update‑Parametrisierung (μP) aus dem Pre‑Training zurück und beschreibt, wie die optimale Lernrate mit der Modellbreite und dem Adapter‑Rank skalieren sollte, um stabile, nicht verschwindende Feature‑Updates zu gewährleisten. Durch die Analyse von Hyperparameter‑Transfer‑Techniken zeigt μA, dass die Lernrate je nach Initialisierung und LoRA‑Skalierungsfaktor unterschiedliche Muster aufweist.

Es werden zwei Hauptregime identifiziert: In einem bleibt die optimale Lernrate nahezu konstant, während sie im anderen invers zum Rank abnimmt. Besonders interessant ist die Entdeckung einer Konfiguration, die es ermöglicht, die Lernrate von LoRA direkt auf ein volles Finetuning zu übertragen. Dadurch entfällt die aufwendige Feinabstimmung der Lernrate für das vollständige Modell, was Zeit und Rechenressourcen spart.

Experimentelle Validierungen über verschiedene Domänen – von Sprach- und Bildverarbeitung bis hin zu multimodalen Aufgaben, Bildgenerierung und Reinforcement Learning – bestätigen die Skalierungsregeln von μA. Die Ergebnisse zeigen, dass Lernraten, die bei LoRA optimiert wurden, zuverlässig auf volles Finetuning übertragen werden können, ohne die Leistung zu beeinträchtigen. Diese Erkenntnisse bieten einen praktischen Leitfaden für Entwickler, die LoRA einsetzen und gleichzeitig die Effizienz des Finetunings maximieren wollen.

Ähnliche Artikel