GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervised Fine‑Tuning (SFT) entwickelt und berücksichtigen nicht die speziellen Optimierungsdynamiken und geometrischen Strukturen von RLVR. Ihre direkte Anwendung führt zu spektralem Kollaps und Instabilität, was die Modellleistung stark einschränkt.