INTELLECT-3: 106B-Parameter-Mix-Of-Experts-Modell setzt neue Maßstäbe
Das neueste Forschungsdokument von OpenAI, INTELLECT-3, präsentiert ein 106‑Billionen‑Parameter‑Mixture‑of‑Experts‑Modell, das mit 12 Billionen aktiven Parametern arbeitet. Durch den Einsatz einer hochskalierbaren Reinforcement‑Learning‑Infrastruktur erreicht INTELLECT‑3 Spitzenleistungen in Mathematik, Programmieren, Wissenschaft und logischem Denken – und übertrifft dabei zahlreiche größere Modelle seiner Generation.
Ein besonderes Highlight ist die vollständige Open‑Source‑Veröffentlichung: Neben dem Modell selbst stellt OpenAI die komplette RL‑Stack‑Suite bereit – von Frameworks über detaillierte Rezepte bis hin zu einer umfangreichen Sammlung von Trainingsumgebungen, die mit der Verifiers‑Bibliothek gebaut wurden. Diese Ressourcen sind Teil der Environments‑Hub‑Community und ermöglichen es Forschern, die Arbeit nachzuvollziehen und weiterzuentwickeln.
Zur Unterstützung dieser Arbeit wurde prime‑rl ins Leben gerufen, ein Open‑Source‑Framework für asynchrones, großmaßstäbliches Reinforcement Learning. prime‑rl skaliert nahtlos von einem einzelnen Knoten bis zu Tausenden von GPUs und ist speziell für agentische RL‑Aufgaben konzipiert, die mehrfache Interaktionen und Tool‑Nutzung erfordern.
Mit diesem Setup wurden sowohl Supervised‑Fine‑Tuning (SFT) als auch RL‑Training auf dem GLM‑4.5‑Air‑Base‑Modell durchgeführt. Die RL‑Phase wurde auf bis zu 512 H200‑GPUs ausgeweitet, wobei eine hohe Trainings‑Effizienz erzielt wurde. INTELLECT‑3 demonstriert damit, dass große, effiziente Modelle mit moderater Parameterzahl durch gezielte RL‑Optimierung neue Leistungsgrenzen setzen können.