Forschung
GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist entscheidend für die Weiterentwicklung großer Sprachmodelle. Bisherige, p…
arXiv – cs.LG