Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Adam”
Forschung

Neuer Optimierer NAMO: Vereint orthogonales Momentum mit Adam‑Noise‑Adaptation In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.17080v1) stellen die Autoren einen innovativen Optimierer namens NAMO vor, der die Vorteile von orthogonalisiertem Momentum – wie sie in Muon genutzt werden – mit der stabilisierenden Noise‑Adaptation von Adam kombiniert. Durch die Skalierung des orthogonalen Momentum mit einer einzigen adaptiven Schrittweite bleibt die Orthogonalität erhalten, während gleichzeitig die L

arXiv – cs.LG
Forschung

<h1>Maskierte Updates steigern LLM-Training: Neue Methode übertrifft Adam</h1> <p>Die Entwicklung großer Sprachmodelle (LLMs) stützt sich bislang fast ausschließlich auf adaptive Optimierer mit komplexen Präconditionern. Eine neue Studie zeigt jedoch, dass das zufällige Maskieren von Parameterupdates überraschend wirksam ist und sogar die neuesten Optimierer übertrifft.</p> <p>Insbesondere ein maskierter RMSProp-Ansatz liefert konsequent bessere Ergebnisse als aktuelle Spitzenoptimierer. Die Autoren erkläre

arXiv – cs.LG
Forschung

<p>Adam neu interpretiert: Beschleunigte kontinuierliche Dynamik als zweiter Ordnung</p> <p>In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.09101v1) wird Adam – das beliebte Optimierungsverfahren aus dem maschinellen Lernen – in einer völlig neuen Perspektive dargestellt. Durch die Modellierung als zweiter‑Ordnung‑Integro‑Differential‑System entsteht eine beschleunigte kontinuierliche Zeitformulierung, die die Dynamik von Adam auf eine elegante, physikalisch inspirierte Ebene hebt.</p> <p>Der Ansa

arXiv – cs.LG
Forschung

<h1>Sketch-and-Walk: Sparsere Attention für schnellere LLM‑Inferenz</h1> <p>Die Selbstaufmerksamkeit ist der Hauptfaktor, der die Rechen- und Speicher­kosten bei der Inferenz von großen Sprachmodellen (LLMs) mit langen Kontexten bestimmt. Sowohl die Vor‑ als auch die Decodierungsphase sind dadurch stark belastet.</p> <p>Um dieses Problem zu lösen, wurde Sketch&Walk Attention entwickelt – ein sparsames Aufmerksamkeitsverfahren, das ohne Training auskommt. Es nutzt Hadamard‑Sketching, um kostengünstige Schätz

arXiv – cs.LG