HDPO: Privilegierte Selbst‑Distillation steigert KI bei mathematischer Problemlösung
Ein neues arXiv‑Paper präsentiert Hybrid Distillation Policy Optimization (HDPO), eine Methode, die das klassische Reinforcement‑Learning (RL) für mathematische KI‑Modelle um ein cleveres Distillations‑Schritt erweitert…