Forschung
CompassMax‑V3‑Thinking: RL für hundert Milliarden MoE ohne Rollout‑Verlust
Das neue Modell CompassMax‑V3‑Thinking setzt einen Meilenstein in der Skalierung von Reinforcement‑Learning (RL) auf hundert Milliarden Par…
arXiv – cs.AI