Forschung arXiv – cs.LG

GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervi…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle.
  • Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervised Fine‑Tuning (SFT) entwickelt und berücksichtigen nicht die speziellen Opt…
  • Ihre direkte Anwendung führt zu spektralem Kollaps und Instabilität, was die Modellleistung stark einschränkt.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervised Fine‑Tuning (SFT) entwickelt und berücksichtigen nicht die speziellen Optimierungsdynamiken und geometrischen Strukturen von RLVR. Ihre direkte Anwendung führt zu spektralem Kollaps und Instabilität, was die Modellleistung stark einschränkt.

Alternative Ansätze, die Update‑Sparsity nutzen, stoßen auf erhebliche Effizienzengpässe, weil unstrukturierte Berechnungen auf moderner Hardware teuer sind. Um diese Probleme zu lösen, wurde GeoRA – eine geometriebewusste Low‑Rank‑Anpassung – entwickelt. GeoRA nutzt die anisotropen und komprimierbaren Eigenschaften der RL‑Update‑Unterräume, indem es Adapter durch Singular Value Decomposition (SVD) innerhalb eines geometrisch eingeschränkten Unterraums initialisiert und die restlichen Komponenten einfriert. Dadurch bleibt die vortrainierte geometrische Struktur erhalten und die Berechnungen können effizient mit dichten GPU‑Operatoren durchgeführt werden.

Experimentelle Ergebnisse auf den Modellen Qwen und Llama zeigen, dass GeoRA die Optimierungsengpässe, die durch geometrische Fehlanpassung entstehen, reduziert. Es übertrifft konsequent etablierte Low‑Rank‑Baselines auf wichtigen mathematischen Benchmarks und erzielt damit neue Bestleistungen. Darüber hinaus demonstriert GeoRA eine verbesserte Generalisierung und Widerstandsfähigkeit gegen katastrophales Vergessen bei Aufgaben außerhalb des Trainingsdomains.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Reinforcement Learning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
RLVR
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
GeoRA
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen