Neue Methode stärkt kleine Sprachmodelle durch gezielte Exploration
Forscher haben eine innovative Technik namens Recall‑Extend Dynamics (RED) vorgestellt, die die Leistungsfähigkeit kleiner Sprachmodelle (SLMs) deutlich verbessert. Durch die Kombination von distillierten Daten aus großen Modellen mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf den kleinen Modellen selbst, schafft RED einen neuen Ansatz, der bisherige Grenzen überwindet.