Selbstspiel bei LLMs: Neue Erkenntnisse zur Verbesserung des mathematischen Denkens
In jüngster Zeit haben Fortschritte im Bereich der großen Sprachmodelle (LLMs) – insbesondere durch Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) – die Idee des Selbstspiels nach dem Training befeuert. Dabei…