CompassMax‑V3‑Thinking: RL für hundert Milliarden MoE ohne Rollout‑Verlust
Das neue Modell CompassMax‑V3‑Thinking setzt einen Meilenstein in der Skalierung von Reinforcement‑Learning (RL) auf hundert Milliarden Parameter. Durch einen klaren Leitgedanken – „jeder Prompt muss zählen“ – wird die…