GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervised Fine‑Tuning (SFT) entwickelt und berücksichtigen nicht die speziellen Optimierungsdynamiken und geometrischen Strukturen von RLVR. Ihre direkte Anwendung führt zu spektralem Kollaps und Instabilität, was die Modellleistung stark einschränkt.

Alternative Ansätze, die Update‑Sparsity nutzen, stoßen auf erhebliche Effizienzengpässe, weil unstrukturierte Berechnungen auf moderner Hardware teuer sind. Um diese Probleme zu lösen, wurde GeoRA – eine geometriebewusste Low‑Rank‑Anpassung – entwickelt. GeoRA nutzt die anisotropen und komprimierbaren Eigenschaften der RL‑Update‑Unterräume, indem es Adapter durch Singular Value Decomposition (SVD) innerhalb eines geometrisch eingeschränkten Unterraums initialisiert und die restlichen Komponenten einfriert. Dadurch bleibt die vortrainierte geometrische Struktur erhalten und die Berechnungen können effizient mit dichten GPU‑Operatoren durchgeführt werden.

Experimentelle Ergebnisse auf den Modellen Qwen und Llama zeigen, dass GeoRA die Optimierungsengpässe, die durch geometrische Fehlanpassung entstehen, reduziert. Es übertrifft konsequent etablierte Low‑Rank‑Baselines auf wichtigen mathematischen Benchmarks und erzielt damit neue Bestleistungen. Darüber hinaus demonstriert GeoRA eine verbesserte Generalisierung und Widerstandsfähigkeit gegen katastrophales Vergessen bei Aufgaben außerhalb des Trainingsdomains.

Ähnliche Artikel