Forschung
BeamPERL: RL mit verifizierbaren Belohnungen stärkt physikalisches Denken in kompakteren LLMs
Ein neues Verfahren namens BeamPERL nutzt Reinforcement Learning mit harten, verifizierbaren Belohnungen, um ein 1,5‑Billionen‑Parameter‑Mo…
arXiv – cs.AI