Suche nach LLM-Training

CodeScaler: Code-LLM-Training ohne Ausführung, schneller & besser

Die neueste Veröffentlichung von CodeScaler verspricht, die Art und Weise, wie Code-LLMs trainiert und eingesetzt werden, grundlegend zu ve…

arXiv – cs.AI 23.02.2026 05:00

Forschung

<h1>Maskierte Updates steigern LLM-Training: Neue Methode übertrifft Adam</h1> <p>Die Entwicklung großer Sprachmodelle (LLMs) stützt sich bislang fast ausschließlich auf adaptive Optimierer mit komplexen Präconditionern. Eine neue Studie zeigt jedoch, dass das zufällige Maskieren von Parameterupdates überraschend wirksam ist und sogar die neuesten Optimierer übertrifft.</p> <p>Insbesondere ein maskierter RMSProp-Ansatz liefert konsequent bessere Ergebnisse als aktuelle Spitzenoptimierer. Die Autoren erkläre

arXiv – cs.LG 18.02.2026 05:00

Forschung

Neuer Ansatz stabilisiert Low-Rank-LLM-Training

Auf dem arXiv erschienen die Ergebnisse der Studie Stabilizing Native Low-Rank LLM Pretraining (ID 2602.12429v1). Sie zeigen, dass große Sp…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Hybrid-Parallelität für große Sprachmodelle: Systematischer Leitfaden und Vergleich

Eine neue Studie auf arXiv (2602.09109v1) liefert einen umfassenden Überblick über die neuesten Ansätze zur Verteilung von Rechenleistung u…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations

Die Trainingszeit großer Sprachmodelle wird häufig durch die vielen Matrixmultiplikationen im Transformer begrenzt. Besonders im Feed‑Forwa…

arXiv – cs.LG 09.02.2026 05:00

Forschung

DABench-LLM: Benchmarking von Dataflow-Acceleratoren für LLM-Training

Die rasante Entwicklung großer Sprachmodelle hat die Leistungsfähigkeit traditioneller CPU- und GPU-Architekturen übertroffen, weil das Wac…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Skalierbare Messung der Verlustkurvatur für die Analyse von LLM-Trainingsdynamik

Neues Forschungsergebnis aus dem Bereich der künstlichen Intelligenz liefert ein praktisches Werkzeug, um die Krümmung des Verlustlandschap…

arXiv – cs.LG 26.01.2026 05:00

Forschung

Automatisierte Pipeline wandelt Call-Center-Aufnahmen in Q&A-Daten für LLM-Training

Ein neues Verfahren namens Call2Instruct ermöglicht es, aus unstrukturierten Call‑Center‑Aufnahmen automatisch hochwertige Frage‑Antwort‑Da…

arXiv – cs.AI 22.01.2026 05:00

Forschung

LLM-Training neu: Selbstkorrigierende, lange Denkketten steigern Matheleistung

In den letzten Jahren haben große Sprachmodelle (LLMs) beeindruckende Fortschritte bei komplexen Denkaufgaben gezeigt, insbesondere bei mat…

arXiv – cs.LG 12.01.2026 05:00

Forschung

GreedySnake steigert SSD-gestütztes LLM-Training um bis zu 2,5×

GreedySnake ist ein neues System für das SSD‑offloaded Training von großen Sprachmodellen (LLMs) und macht das Training dadurch deutlich ko…

arXiv – cs.LG 22.12.2025 05:00

Forschung

EDGC: Dynamische Gradientenkompensation steigert LLM-Trainingseffizienz um bis zu 46 %

Das Training großer Sprachmodelle (LLMs) erfordert enorme Rechenleistung und Speicher. Trotz verteilter Trainingsmethoden bleibt die Kommun…

arXiv – cs.AI 17.12.2025 05:00

Forschung

A-3PO: Schnellere asynchrone LLM-Trainings durch Approximation

Eine neue Veröffentlichung auf arXiv (2512.06547v1) stellt A-3PO vor, eine Methode, die asynchrones Training großer Sprachmodelle deutlich…

arXiv – cs.LG 09.12.2025 05:00

Forschung

LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile

Traditionell werden bei der Schulung großer Sprachmodelle (LLMs) die versteckten Zustände zunächst in Logits umgewandelt, bevor der Kreuzen…

arXiv – cs.LG 25.11.2025 05:00

Aktuell

Agent Lab: Neue Erfolgsformel für AI-Startups ohne SOTA-LLM-Training

Die Agent Lab Thesis präsentiert einen frischen Ansatz für die Gründung von AI-Startups, der Agent Engineering und Forschung miteinander ve…

Latent Space 18.11.2025 02:41

Forschung

<h1>HAMMER: Neues LLM-Training nutzt Hamiltonian-Pfad für mehr Exploration</h1> <p>In der aktuellen Forschung zu Curriculum‑Reinforcement‑Learning für große Sprachmodelle (LLMs) wird häufig auf Schwierigkeits‑Annotationen zurückgegriffen, um Daten zu filtern und zu ordnen. Diese Vorgehensweise führt jedoch zu lokalen Optimierungen: Wenn das Modell in den ersten Trainingsschritten zu stark auf einfache Beispiele fokussiert, verliert es seine explorativen Fähigkeiten.</p> <p>Die neue Methode namens HAMMER – H

arXiv – cs.LG 01.10.2025 05:00

Forschung

LLM-Trainingdaten verbessern Tabellenerkennung: LRTab setzt neue Maßstäbe

Die automatisierte Analyse von Tabellen ist für Datenwissenschaftler ein zentrales Thema. In den letzten Jahren haben sich große Sprachmode…

arXiv – cs.LG 27.08.2025 05:00

Forschung

WISCA: Leichtgewichtiges Gewichtsskalierungsverfahren verbessert LLM-Training

Die neueste Veröffentlichung auf arXiv (2508.16676v1) stellt WISCA vor – ein schlankes Verfahren zur Gewichtsskalierung, das die Trainingsl…

arXiv – cs.LG 26.08.2025 05:00

Praxis

DeepSpeed präsentiert ZenFlow: Der stallfreie Offloading-Engine für LLM-Training

DeepSpeed hat ZenFlow vorgestellt, einen neuen Offloading-Engine, der ein zentrales Problem beim Training großer Sprachmodelle (LLM) adress…

MarkTechPost 21.08.2025 00:52

Praxis

ZenFlow: Neue, stallfreie Offloading-Engine für LLM-Training

ZenFlow ist eine neue Erweiterung von DeepSpeed, die im Sommer 2025 vorgestellt wurde. Sie dient als stallfreie Offloading-Engine für das T…

PyTorch – Blog 20.08.2025 19:52

Finde Modelle, Firmen und Themen

CodeScaler: Code-LLM-Training ohne Ausführung, schneller & besser

Neuer Ansatz stabilisiert Low-Rank-LLM-Training

Hybrid-Parallelität für große Sprachmodelle: Systematischer Leitfaden und Vergleich

Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations

DABench-LLM: Benchmarking von Dataflow-Acceleratoren für LLM-Training

Skalierbare Messung der Verlustkurvatur für die Analyse von LLM-Trainingsdynamik

Automatisierte Pipeline wandelt Call-Center-Aufnahmen in Q&A-Daten für LLM-Training

LLM-Training neu: Selbstkorrigierende, lange Denkketten steigern Matheleistung

GreedySnake steigert SSD-gestütztes LLM-Training um bis zu 2,5×

EDGC: Dynamische Gradientenkompensation steigert LLM-Trainingseffizienz um bis zu 46 %

A-3PO: Schnellere asynchrone LLM-Trainings durch Approximation

LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile

Agent Lab: Neue Erfolgsformel für AI-Startups ohne SOTA-LLM-Training

LLM-Trainingdaten verbessern Tabellenerkennung: LRTab setzt neue Maßstäbe

WISCA: Leichtgewichtiges Gewichtsskalierungsverfahren verbessert LLM-Training

DeepSpeed präsentiert ZenFlow: Der stallfreie Offloading-Engine für LLM-Training

ZenFlow: Neue, stallfreie Offloading-Engine für LLM-Training

🍪 Cookie-Einstellungen

EDGC: Dynamische Gradientenkompensation steigert LLM-Trainingseffizienz um bis zu 46 %