Suche nach Muon | meineki.news

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Die rasante Entwicklung großer Sprachmodelle (LLMs) wird zunehmend durch Speicher- und Bereitstellungskosten begrenzt. Um diese Hürden zu ü…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

Der Muon-Optimierer hat bereits bei der Vortrainierung großer Sprachmodelle vielversprechende Ergebnisse erzielt, indem er Gradienten (oder…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Neuer Optimierer NAMO: Vereint orthogonales Momentum mit Adam‑Noise‑Adaptation In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.17080v1) stellen die Autoren einen innovativen Optimierer namens NAMO vor, der die Vorteile von orthogonalisiertem Momentum – wie sie in Muon genutzt werden – mit der stabilisierenden Noise‑Adaptation von Adam kombiniert. Durch die Skalierung des orthogonalen Momentum mit einer einzigen adaptiven Schrittweite bleibt die Orthogonalität erhalten, während gleichzeitig die L

arXiv – cs.LG 20.02.2026 05:00

Forschung

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie

Arcee AI hat heute den technischen Bericht zu ihrem neuesten Sprachmodell Trinity Large veröffentlicht. Das sparsamente Mixture-of-Experts-…

arXiv – cs.LG 20.02.2026 05:00

Forschung

SpecMuon: Spektraler Optimierer beschleunigt physikbasierte neuronale Netze

We need to produce the output: the same text but with the German translation. The instruction: "Translate the following text into German. T…

arXiv – cs.LG 19.02.2026 05:00

Forschung

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Muons, eine Familie von Optimierern, nutzt Newton-Schulz-Iteration, um die Update-Schritte zu orthogonalisieren. Dadurch entsteht eine nahe…

arXiv – cs.LG 17.02.2026 05:00

Forschung

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

In der Ausbildung großer Sprachmodelle (LLMs) zeigen Gradientensignale eine starke Anisotropie: die wiederkehrende sprachliche Struktur kon…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

Neuer Forschungsbericht auf arXiv zeigt, dass der Optimierer Shampoo, der die Matrixstruktur von neuronalen Netzwerken nutzt, deutlich date…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Uniformes Spektralwachstum bei Muon-LoRA: Gleichmäßiges Wachstum und globale Konvergenz

In der jüngsten Veröffentlichung auf arXiv wird ein faszinierendes Phänomen bei der Feinabstimmung großer Sprachmodelle (LLMs) mit der Low‑…

arXiv – cs.LG 09.02.2026 05:00

Forschung

IMU-1: Mit 72 B Tokens ein kleines Modell, das große Konkurrenz schlägt

Ein neues Sprachmodell namens IMU‑1, das mit nur 430 Mio. Parametern und 72 B Tokens trainiert wurde, erreicht Leistungen, die bisher nur b…

arXiv – cs.LG 04.02.2026 05:00

Forschung

UNSO: Neue, stabile Newton-Schulz-Optimierung für effiziente Matrixberechnungen

Die Newton-Schulz-Iteration hat sich in den letzten Jahren als Schlüsselverfahren für den Muon-Optimizer und die Arbeit mit dem Stiefel-Man…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Schnelligkeit als Vertrauenssignal: KI löst Sudoku mit weniger Rechenleistung

Biologische Nervensysteme sind extrem schnell, aber gleichzeitig stark energiebeschränkt. Die Evolution hat dafür eine elegante Lösung gefu…

arXiv – cs.LG 28.01.2026 05:00

Forschung

Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum

Die neuesten Forschungsergebnisse zeigen, dass die Optimierungsstrategie Muon die Vortrainingsphase großer Sprachmodelle deutlich beschleun…

arXiv – cs.LG 22.01.2026 05:00

Forschung

Verbesserte Modelloptimierung: Muon-basierte Distillation & Quantisierung für LLMs

Large Language Models (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, doch ihre hohe Rechen-, Speicher- und Energieanford…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung

In jüngster Zeit haben Optimierer, die Matrix‑Preconditioning einsetzen, vielversprechende Beschleunigungen gegenüber dem derzeit dominante…

arXiv – cs.LG 08.12.2025 05:00

Forschung

<h1>Wann profitieren Deep‑Learning‑Modelle von spektralen Gradientenupdates?</h1> <p>In der Welt des Deep Learning haben spektrale Gradientenmethoden – darunter der neu aufgelegte Muon‑Optimizer – großes Interesse geweckt. Sie stellen eine Alternative zum klassischen euklidischen Gradientenabstieg dar, doch bislang war unklar, in welchen Situationen sie tatsächlich überlegen sind.</p> <p>Die neue Studie liefert dafür eine klare Antwort: Sie führt eine einfache, schichtweise Bedingung ein, die vorhersagt, wa

arXiv – cs.LG 05.12.2025 05:00

Forschung

Turbo-Muon: Preconditionierung beschleunigt orthogonale Optimierung

Orthogonality-basierte Optimierer wie Muon haben in den letzten Monaten beeindruckende Ergebnisse bei groß angelegten Trainingsaufgaben erz…

arXiv – cs.AI 05.12.2025 05:00

Forschung

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning

Die neuesten Fortschritte in der KI zeigen, dass große Sprachmodelle exzellente Fähigkeiten im logischen Denken und bei Tool‑Nutzung besitz…

arXiv – cs.LG 26.11.2025 05:00

Forschung

POME: Mit Muon-Projection die Leistung feinabgestimmter LLMs steigern

Die neueste Veröffentlichung auf arXiv (2510.06627v1) stellt POME – Post‑Optimization Model Edit – vor, ein Verfahren, das die Performance…

arXiv – cs.LG 09.10.2025 05:00

Finde Modelle, Firmen und Themen

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie

SpecMuon: Spektraler Optimierer beschleunigt physikbasierte neuronale Netze

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

Uniformes Spektralwachstum bei Muon-LoRA: Gleichmäßiges Wachstum und globale Konvergenz

IMU-1: Mit 72 B Tokens ein kleines Modell, das große Konkurrenz schlägt

UNSO: Neue, stabile Newton-Schulz-Optimierung für effiziente Matrixberechnungen

Schnelligkeit als Vertrauenssignal: KI löst Sudoku mit weniger Rechenleistung

Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum

Verbesserte Modelloptimierung: Muon-basierte Distillation & Quantisierung für LLMs

Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung

Turbo-Muon: Preconditionierung beschleunigt orthogonale Optimierung

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning

POME: Mit Muon-Projection die Leistung feinabgestimmter LLMs steigern

🍪 Cookie-Einstellungen

Arcee präsentiert Trinity Large: 400 Billionen Parameter, neue MoE-Strategie

IMU-1: Mit 72 B Tokens ein kleines Modell, das große Konkurrenz schlägt

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning