Suche nach Optimierer | meineki.news

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Die rasante Entwicklung großer Sprachmodelle (LLMs) wird zunehmend durch Speicher- und Bereitstellungskosten begrenzt. Um diese Hürden zu ü…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Temperaturparameter in Knowledge Distillation beleuchtet – klare Auswahlrichtlinien

In der Wissensdistillation wird ein Temperaturparameter eingesetzt, um die in den Gewichten des Lehrmodells verborgene Beziehungsmatrix für…

arXiv – cs.LG 04.03.2026 05:00

Forschung

TENG-BC: Neural PDE Solver mit hoher Präzision bei zeitabhängigen Gleichungen

Ein neuer Ansatz namens TENG-BC (Time‑Evolving Natural Gradient for Boundary Conditions) verspricht, die langjährige Herausforderung der ex…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Solver-basierte Zertifikate erklären Satellitenplanung präzise

Satellitenbetreiber, die Erdbeobachtungssatelliten steuern, benötigen klare Begründungen für ihre Planungsentscheidungen: Warum wurde ein A…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Optimierer formen Lernpfade: Drift und Transversalität bei Transformers

In einer neuen Untersuchung von arXiv‑Studien wird die Geometrie von Trainingspfaden in kleinen Transformer‑Modellen genauer beleuchtet. Da…

arXiv – cs.LG 02.03.2026 05:00

Forschung

VeRO: Ein Evaluations-Framework zur Optimierung von Agenten

In der KI-Forschung hat das neue Tool VERO einen bedeutenden Fortschritt erzielt: Es bietet ein standardisiertes System, um die Leistungsfä…

arXiv – cs.AI 27.02.2026 05:00

Forschung

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

Der Muon-Optimierer hat bereits bei der Vortrainierung großer Sprachmodelle vielversprechende Ergebnisse erzielt, indem er Gradienten (oder…

arXiv – cs.LG 26.02.2026 05:00

Forschung

LLM-basierte Code‑Weltmodelle steuern Evolutionäre Algorithmen

Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) nicht nur Texte generieren, sondern auch das Verhalten von Optimierern erlernen und…

arXiv – cs.LG 27.02.2026 05:00

Forschung

SGD vs. Quasi-Newton: Optimierer bestimmen Generalisierbarkeit von Netzen

Neuer Artikel auf arXiv zeigt, wie die Wahl des Optimierers die Qualität von neuronalen Netzen beeinflusst. Forscher untersuchten die beide…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Fixierte Pole in RNNs: Effizientere Online-Training für Echtzeit-Anwendungen

Eine neue Untersuchung auf arXiv beleuchtet, warum das Lernen der Pole in rekurrenten neuronalen Netzen (RNNs) bei Echtzeit-Online-Training…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Rationale Fehlanpassung: Wie Modellfehler KI in Fallen führen

Die rasche Einführung von Large Language Models und KI-Agenten in kritische gesellschaftliche und technische Bereiche wird durch anhaltende…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Neuer Optimierer NAMO: Vereint orthogonales Momentum mit Adam‑Noise‑Adaptation In einer kürzlich veröffentlichten Arbeit auf arXiv (2602.17080v1) stellen die Autoren einen innovativen Optimierer namens NAMO vor, der die Vorteile von orthogonalisiertem Momentum – wie sie in Muon genutzt werden – mit der stabilisierenden Noise‑Adaptation von Adam kombiniert. Durch die Skalierung des orthogonalen Momentum mit einer einzigen adaptiven Schrittweite bleibt die Orthogonalität erhalten, während gleichzeitig die L

arXiv – cs.LG 20.02.2026 05:00

Forschung

SpecMuon: Spektraler Optimierer beschleunigt physikbasierte neuronale Netze

We need to produce the output: the same text but with the German translation. The instruction: "Translate the following text into German. T…

arXiv – cs.LG 19.02.2026 05:00

Forschung

Sicheres, energieeffizientes Agenten-Netzwerk für KI-Reasoning

In einer neuen Studie wird ein sicheres drahtloses Agenten-Netzwerk vorgestellt, das aus einem überwachenden KI-Agenten und mehreren unters…

arXiv – cs.AI 18.02.2026 05:00

Forschung

<h1>Maskierte Updates steigern LLM-Training: Neue Methode übertrifft Adam</h1> <p>Die Entwicklung großer Sprachmodelle (LLMs) stützt sich bislang fast ausschließlich auf adaptive Optimierer mit komplexen Präconditionern. Eine neue Studie zeigt jedoch, dass das zufällige Maskieren von Parameterupdates überraschend wirksam ist und sogar die neuesten Optimierer übertrifft.</p> <p>Insbesondere ein maskierter RMSProp-Ansatz liefert konsequent bessere Ergebnisse als aktuelle Spitzenoptimierer. Die Autoren erkläre

arXiv – cs.LG 18.02.2026 05:00

Forschung

Normalisierung statt Clipping: Warum SGD bei stark schiefem Rauschen konvergiert

Eine neue theoretische Analyse zeigt, warum die Normalisierung bei stochastisch vorgefertigtem Stochastic Gradient Descent (SPSGD) – und se…

arXiv – cs.LG 17.02.2026 05:00

Forschung

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Muons, eine Familie von Optimierern, nutzt Newton-Schulz-Iteration, um die Update-Schritte zu orthogonalisieren. Dadurch entsteht eine nahe…

arXiv – cs.LG 17.02.2026 05:00

Forschung

<p>OptiML: KI-gestütztes Framework optimiert CUDA-Kernel automatisch</p> <p>Mit dem neuen End‑to‑End-Framework OptiML können Entwickler:innen nun entweder eine natürliche Sprachbeschreibung oder vorhandenen CUDA-Code eingeben und sofort einen leistungsstarken, hardwareoptimierten Kernel erhalten. Das System nutzt ein Mixture‑of‑Thoughts‑Modell, um erste Implementierungsstrategien zu generieren, und verfeinert diese anschließend mithilfe eines Monte‑Carlo‑Tree‑Search‑Optimierers.</p> <p>Jede vorgeschlagene T

arXiv – cs.AI 16.02.2026 05:00

Forschung

Rationale Aktivierungen: Mehr Ausdruckskraft und Effizienz in neuronalen Netzen

Neuer Forschungsschwerpunkt: Neuronale Netze, die mit lernbaren, niedriggradigen rationalen Aktivierungsfunktionen arbeiten, zeigen deutlic…

arXiv – cs.AI 16.02.2026 05:00

Forschung

TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agente…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

In der Ausbildung großer Sprachmodelle (LLMs) zeigen Gradientensignale eine starke Anisotropie: die wiederkehrende sprachliche Struktur kon…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Selbstoptimierendes Empfehlungssystem: Vollautomatische LLM-Agenten

Die Optimierung von Empfehlungssystemen für weltweite Video-Plattformen stellt Entwickler vor eine enorme Herausforderung: ein riesiges Hyp…

arXiv – cs.LG 12.02.2026 05:00

Forschung

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

Die Schulung von Quantenneuronalen Netzen (QNNs) ist bislang stark durch den hohen Rechenaufwand für Gradientenabschätzungen und das sogena…

arXiv – cs.LG 13.02.2026 05:00

Forschung

MVN-Grad: Neuer Optimierer kombiniert Varianznormalisierung und Momentum

Ein neuer Optimierer namens MVN-Grad, vorgestellt auf arXiv, kombiniert zwei bewährte Ideen – die Varianznormalisierung von Gradienten und…

arXiv – cs.LG 12.02.2026 05:00

Aktuell

MicroGPT: Ein 200‑Zeilen‑Python‑Script, das einen GPT trainiert und nutzt

Mit dem neuen Projekt MicroGPT hat der KI‑Forscher Andrej Karpathy ein völlig eigenständiges, 200‑Zeilen‑langes Python‑Script veröffentlich…

Andrej Karpathy – Blog 12.02.2026 07:00

Forschung

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

Neuer Forschungsbericht auf arXiv zeigt, dass der Optimierer Shampoo, der die Matrixstruktur von neuronalen Netzwerken nutzt, deutlich date…

arXiv – cs.LG 11.02.2026 05:00

Forschung

MemFly: Echtzeit‑Memory‑Optimierung mit dem Information Bottleneck

Die neue Forschungsarbeit „MemFly“ präsentiert ein innovatives Framework, das die Langzeit‑Speicherung von Sprachmodellen in Echtzeit optim…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Orthogonale Gradientenauswahl steigert Domänenanpassung von LLMs

In der aktuellen Forschung wird ein neues Verfahren vorgestellt, das die Feinabstimmung großer Sprachmodelle (LLMs) für spezielle Fachberei…

arXiv – cs.LG 09.02.2026 05:00

Forschung

Uniformes Spektralwachstum bei Muon-LoRA: Gleichmäßiges Wachstum und globale Konvergenz

In der jüngsten Veröffentlichung auf arXiv wird ein faszinierendes Phänomen bei der Feinabstimmung großer Sprachmodelle (LLMs) mit der Low‑…

arXiv – cs.LG 09.02.2026 05:00

Forschung

SGD sucht nicht nach Flachheit – Daten bestimmen die Schärfe

Ein neues arXiv‑Veröffentlichung (2602.05065v1) beleuchtet die lange diskutierte Frage, ob der klassische Stochastic Gradient Descent (SGD)…

arXiv – cs.LG 06.02.2026 05:00

Finde Modelle, Firmen und Themen

NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

Temperaturparameter in Knowledge Distillation beleuchtet – klare Auswahlrichtlinien

TENG-BC: Neural PDE Solver mit hoher Präzision bei zeitabhängigen Gleichungen

Solver-basierte Zertifikate erklären Satellitenplanung präzise

Optimierer formen Lernpfade: Drift und Transversalität bei Transformers

VeRO: Ein Evaluations-Framework zur Optimierung von Agenten

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

LLM-basierte Code‑Weltmodelle steuern Evolutionäre Algorithmen

SGD vs. Quasi-Newton: Optimierer bestimmen Generalisierbarkeit von Netzen

Fixierte Pole in RNNs: Effizientere Online-Training für Echtzeit-Anwendungen

Rationale Fehlanpassung: Wie Modellfehler KI in Fallen führen

SpecMuon: Spektraler Optimierer beschleunigt physikbasierte neuronale Netze

Sicheres, energieeffizientes Agenten-Netzwerk für KI-Reasoning

Normalisierung statt Clipping: Warum SGD bei stark schiefem Rauschen konvergiert

TrasMuon: Vertrauenbasierte Skalierung für orthogonale Momentum-Optimierer

Rationale Aktivierungen: Mehr Ausdruckskraft und Effizienz in neuronalen Netzen

TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten

Spectra: Optimierer für LLMs neu gedacht – Anisotrope Spektren im Fokus

Selbstoptimierendes Empfehlungssystem: Vollautomatische LLM-Agenten

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

MVN-Grad: Neuer Optimierer kombiniert Varianznormalisierung und Momentum

MicroGPT: Ein 200‑Zeilen‑Python‑Script, das einen GPT trainiert und nutzt

Shampoo-Optimierer: Stochastische Anpassung des Spektralabstiegs

MemFly: Echtzeit‑Memory‑Optimierung mit dem Information Bottleneck

Orthogonale Gradientenauswahl steigert Domänenanpassung von LLMs

Uniformes Spektralwachstum bei Muon-LoRA: Gleichmäßiges Wachstum und globale Konvergenz

SGD sucht nicht nach Flachheit – Daten bestimmen die Schärfe

🍪 Cookie-Einstellungen

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %