DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren
Ein neues arXiv-Papier präsentiert DEPO, ein innovatives Verfahren zur Optimierung von Large Reasoning Models (LRMs). Durch die Einführung eines Online‑Schwierigkeitsestimators werden Trainingsbeispiele vor dem Rollout‑…