Suche nach Adam | meineki.news

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Die rasante Entwicklung großer Sprachmodelle (LLMs) wird zunehmend durch Speicher- und Bereitstellungskosten begrenzt. Um diese Hürden zu ü…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Optimierer formen Lernpfade: Drift und Transversalität bei Transformers

In einer neuen Untersuchung von arXiv‑Studien wird die Geometrie von Trainingspfaden in kleinen Transformer‑Modellen genauer beleuchtet. Da…

arXiv – cs.LG 02.03.2026 05:00

Forschung

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Die Post‑Training‑Quantisierung (PTQ) bleibt ein zentraler Ansatz, um die Speicher‑ und Rechenkosten großer Sprachmodelle drastisch zu senk…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Neuer Optimierer NAMO: Vereint orthogonales Momentum mit Adam‑Noise‑Adaptation In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.17080v1) stellen die Autoren einen innovativen Optimierer namens NAMO vor, der die Vorteile von orthogonalisiertem Momentum – wie sie in Muon genutzt werden – mit der stabilisierenden Noise‑Adaptation von Adam kombiniert. Durch die Skalierung des orthogonalen Momentum mit einer einzigen adaptiven Schrittweite bleibt die Orthogonalität erhalten, während gleichzeitig die L

arXiv – cs.LG 20.02.2026 05:00

Forschung

<h1>Maskierte Updates steigern LLM-Training: Neue Methode übertrifft Adam</h1> <p>Die Entwicklung großer Sprachmodelle (LLMs) stützt sich bislang fast ausschließlich auf adaptive Optimierer mit komplexen Präconditionern. Eine neue Studie zeigt jedoch, dass das zufällige Maskieren von Parameterupdates überraschend wirksam ist und sogar die neuesten Optimierer übertrifft.</p> <p>Insbesondere ein maskierter RMSProp-Ansatz liefert konsequent bessere Ergebnisse als aktuelle Spitzenoptimierer. Die Autoren erkläre

arXiv – cs.LG 18.02.2026 05:00

Forschung

Normalisierung statt Clipping: Warum SGD bei stark schiefem Rauschen konvergiert

Eine neue theoretische Analyse zeigt, warum die Normalisierung bei stochastisch vorgefertigtem Stochastic Gradient Descent (SPSGD) – und se…

arXiv – cs.LG 17.02.2026 05:00

Forschung

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Muons, eine Familie von Optimierern, nutzt Newton-Schulz-Iteration, um die Update-Schritte zu orthogonalisieren. Dadurch entsteht eine nahe…

arXiv – cs.LG 17.02.2026 05:00

Praxis

Softwareentwickler im Dilemma: „Deep Blue“ – KI bringt Angst und Chancen

Im vergangenen Monat hat der Podcast „Oxide and Friends“ – mit primärem Dank an Adam Leventhal – einen neuen Begriff geprägt: „Deep Blue“…

Simon Willison – Blog 15.02.2026 21:06

Forschung

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

In der Ausbildung großer Sprachmodelle (LLMs) zeigen Gradientensignale eine starke Anisotropie: die wiederkehrende sprachliche Struktur kon…

arXiv – cs.LG 13.02.2026 05:00

Forschung

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

Die Schulung von Quantenneuronalen Netzen (QNNs) ist bislang stark durch den hohen Rechenaufwand für Gradientenabschätzungen und das sogena…

arXiv – cs.LG 13.02.2026 05:00

Forschung

MVN-Grad: Neuer Optimierer kombiniert Varianznormalisierung und Momentum

Ein neuer Optimierer namens MVN-Grad, vorgestellt auf arXiv, kombiniert zwei bewährte Ideen – die Varianznormalisierung von Gradienten und…

arXiv – cs.LG 12.02.2026 05:00

Aktuell

MicroGPT: Ein 200‑Zeilen‑Python‑Script, das einen GPT trainiert und nutzt

Mit dem neuen Projekt MicroGPT hat der KI‑Forscher Andrej Karpathy ein völlig eigenständiges, 200‑Zeilen‑langes Python‑Script veröffentlich…

Andrej Karpathy – Blog 12.02.2026 07:00

Forschung

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

Neuer Forschungsbericht auf arXiv zeigt, dass der Optimierer Shampoo, der die Matrixstruktur von neuronalen Netzwerken nutzt, deutlich date…

arXiv – cs.LG 11.02.2026 05:00

Forschung

<p>Adam neu interpretiert: Beschleunigte kontinuierliche Dynamik als zweiter Ordnung</p> <p>In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.09101v1) wird Adam – das beliebte Optimierungsverfahren aus dem maschinellen Lernen – in einer völlig neuen Perspektive dargestellt. Durch die Modellierung als zweiter‑Ordnung‑Integro‑Differential‑System entsteht eine beschleunigte kontinuierliche Zeitformulierung, die die Dynamik von Adam auf eine elegante, physikalisch inspirierte Ebene hebt.</p> <p>Der Ansa

arXiv – cs.LG 11.02.2026 05:00

Forschung

<h1>Sketch-and-Walk: Sparsere Attention für schnellere LLM‑Inferenz</h1> <p>Die Selbstaufmerksamkeit ist der Hauptfaktor, der die Rechen- und Speicherkosten bei der Inferenz von großen Sprachmodellen (LLMs) mit langen Kontexten bestimmt. Sowohl die Vor‑ als auch die Decodierungsphase sind dadurch stark belastet.</p> <p>Um dieses Problem zu lösen, wurde Sketch&Walk Attention entwickelt – ein sparsames Aufmerksamkeitsverfahren, das ohne Training auskommt. Es nutzt Hadamard‑Sketching, um kostengünstige Schätz

arXiv – cs.LG 10.02.2026 05:00

Forschung

Symmetriebrechung in Transformers: Mehr Leistung & Interpretierbarkeit

In einer neuen Studie wird gezeigt, dass das Standard-Attention‑Modell ungenutzte Rotationsfreiheitsgrade besitzt, die zwar durch die Berec…

arXiv – cs.LG 02.02.2026 05:00

Forschung

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

Die neueste Forschung im Bereich der Post-Training-Quantisierung (PTQ) hat gezeigt, dass Blockrotationen ein vielversprechendes Mittel sind…

arXiv – cs.LG 02.02.2026 05:00

Forschung

Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum

Die neuesten Forschungsergebnisse zeigen, dass die Optimierungsstrategie Muon die Vortrainingsphase großer Sprachmodelle deutlich beschleun…

arXiv – cs.LG 22.01.2026 05:00

Forschung

Hybrid-Quantum-Regression: Vorverarbeitung und Curriculum verbessern Leistung

Ein neues hybrides Quantum‑Classical‑Regressionsmodell wurde vorgestellt, das die bisherige Schwäche von Quantum Neural Networks (QNNs) – d…

arXiv – cs.LG 21.01.2026 05:00

Forschung

AdaFRUGAL: Automatisiertes, speichereffizientes Training von LLMs

Das neue Verfahren AdaFRUGAL revolutioniert das Training großer Sprachmodelle, indem es die Speicherbelastung drastisch senkt und gleichzei…

arXiv – cs.LG 21.01.2026 05:00

Forschung

AdaMARP: Adaptives Multi-Agent-Framework für immersives Rollenspiel

Die Nutzung von großen Sprachmodellen (LLMs) für Rollenspiele soll es ermöglichen, beliebige Charaktere in interaktiven Erzählungen darzust…

arXiv – cs.AI 19.01.2026 05:00

Forschung

WSD‑Lernrate‑Scheduler: Gemeinsamkeiten zwischen Sprachmodellen und CNNs entdeckt

Der Warmup Stable Decay (WSD) Scheduler hat sich in den letzten Monaten als besonders leistungsfähig für das Training großer Sprachmodelle…

arXiv – cs.LG 15.01.2026 05:00

Forschung

GPA: Generalisierte Primal‑Averaging beschleunigt LLM‑Training ohne Mehrloop

In einer neuen Veröffentlichung auf arXiv wird Generalized Primal Averaging (GPA) vorgestellt, ein Verfahren, das die Optimierung von große…

arXiv – cs.AI 22.12.2025 05:00

Produkt

Robotik im T-Mobile Arena: ADAM mixt Getränke für Golden Knights

Im T‑Mobile Arena in Las Vegas erleben die Fans der Golden Knights mehr als nur ein Hockeyspiel – sie bekommen einen Vorgeschmack auf die Z…

NVIDIA – Blog 12.12.2025 16:00

Forschung

Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training

In der Optimierung von neuronalen Netzen spielt die Gewichtungsabklingung (weight decay) eine zentrale Rolle. Während AdamW im Vergleich zu…

arXiv – cs.LG 10.12.2025 05:00

Forschung

Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung

In jüngster Zeit haben Optimierer, die Matrix‑Preconditioning einsetzen, vielversprechende Beschleunigungen gegenüber dem derzeit dominante…

arXiv – cs.LG 08.12.2025 05:00

Forschung

Frühzeitiges Beenden der Diffusionsinferenz für dLLMs dank Trainingsgradienten

Ein neu entwickeltes Verfahren namens EDIT (Early Diffusion Inference Termination) ermöglicht es, die iterative Denoising‑Phase von diffusi…

arXiv – cs.AI 02.12.2025 05:00

Forschung

Umfassende Analyse: Optimierungsalgorithmen für Deep Learning

Ein neues arXiv‑Veröffentlichung (2511.20725v1) bietet einen praxisorientierten Überblick über die Konfiguration von Optimierungsalgorithme…

arXiv – cs.LG 27.11.2025 05:00

Forschung

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning

Die neuesten Fortschritte in der KI zeigen, dass große Sprachmodelle exzellente Fähigkeiten im logischen Denken und bei Tool‑Nutzung besitz…

arXiv – cs.LG 26.11.2025 05:00

Produkt

Mobileye optimiert REM™ mit AWS Graviton: Fokus auf ML-Inferenz & Triton

Mobileye hat seine REM™-Plattform mithilfe der leistungsstarken AWS Graviton-Prozessoren neu gestaltet. Durch gezielte Optimierungen der ma…

AWS – Machine Learning Blog 26.11.2025 19:50

Finde Modelle, Firmen und Themen

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Optimierer formen Lernpfade: Drift und Transversalität bei Transformers

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Normalisierung statt Clipping: Warum SGD bei stark schiefem Rauschen konvergiert

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Softwareentwickler im Dilemma: „Deep Blue“ – KI bringt Angst und Chancen

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

MVN-Grad: Neuer Optimierer kombiniert Varianznormalisierung und Momentum

MicroGPT: Ein 200‑Zeilen‑Python‑Script, das einen GPT trainiert und nutzt

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

Symmetriebrechung in Transformers: Mehr Leistung & Interpretierbarkeit

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

Muon-Variante beschleunigt LLM-Vortraining durch variancengesteuertes Momentum

Hybrid-Quantum-Regression: Vorverarbeitung und Curriculum verbessern Leistung

AdaFRUGAL: Automatisiertes, speichereffizientes Training von LLMs

AdaMARP: Adaptives Multi-Agent-Framework für immersives Rollenspiel

WSD‑Lernrate‑Scheduler: Gemeinsamkeiten zwischen Sprachmodellen und CNNs entdeckt

GPA: Generalisierte Primal‑Averaging beschleunigt LLM‑Training ohne Mehrloop

Robotik im T-Mobile Arena: ADAM mixt Getränke für Golden Knights

Neuer Ansatz: Gewichtungsabklingung neu: Lernrate² statt Lernrate stabilisiert Training

Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung

Frühzeitiges Beenden der Diffusionsinferenz für dLLMs dank Trainingsgradienten

Umfassende Analyse: Optimierungsalgorithmen für Deep Learning

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning

Mobileye optimiert REM™ mit AWS Graviton: Fokus auf ML-Inferenz & Triton

🍪 Cookie-Einstellungen

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

Xmodel‑2.5: 1,3 Milliarden‑Parameter‑Modell für effizientes Edge‑Reasoning