GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, parameter‑effiziente Techniken wie PiSSA und MiLoRA wurden jedoch für das Supervi…