Suche nach Schichtweise

Neues Riemannian-Optimierungsverfahren verbessert modulare Systeme

Ein neues arXiv‑Veröffentlichung (2603.03610v1) liefert einen bedeutenden Fortschritt in der Optimierung von Systemen, die aus modularen Ba…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Quantum-Optimierung: exakte und asymptotisch vollständige Robustheitsprüfung neuronaler Netze

Neurale Netzwerke (DNNs) liefern beeindruckende Leistungen, sind jedoch anfällig für gezielte Störungen, die ihre Einsatzfähigkeit in siche…

arXiv – cs.LG 03.03.2026 05:00

Forschung

Effiziente Tool-Orchestrierung mit reflektiver Fehlerkorrektur

In agentischen Systemen ist das Aufrufen von Tools ein zentrales Element, doch häufig entstehen Fehler nicht bei einzelnen Tool‑Aufrufen, s…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Multimodale Transformer: Vision, Sprache und Synergie im Detail analysiert Eine neue Studie auf arXiv untersucht, wie multimodale Transformer – also Modelle, die Text und Bild gleichzeitig verarbeiten – ihre Vorhersagen treffen. Dabei wird genau analysiert, ob die Antwort vor allem von visuellen Hinweisen, sprachlichen Argumenten oder einer echten Kombination aus beiden abhängt und wie sich diese Abhängigkeiten in den einzelnen Schichten des Modells verändern. Zur Untersuchung wird ein schichtweises Ver

arXiv – cs.AI 18.02.2026 05:00

Forschung

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

Die Schulung von Quantenneuronalen Netzen (QNNs) ist bislang stark durch den hohen Rechenaufwand für Gradientenabschätzungen und das sogena…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Sparse Adapter Fusion: Parameter sparen bei kontinuierlichem NLP‑Lernen

Kontinuierliches Lernen ist in der natürlichen Sprachverarbeitung entscheidend, um Modelle an sich wandelnde Daten anzupassen und das sogen…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Exakte geschlossene Formel für Gaußsche Momente in Residual-Netzen In einer neuen Veröffentlichung auf arXiv wird ein langjähriges Problem der KI-Forschung gelöst: Die exakte Berechnung von Mittelwert und Kovarianz einer beliebigen multivariaten Gaußschen Verteilung, wenn sie durch ein tiefes Residual-Netzwerk propagiert wird. Durch schichtweise Momentenabgleich wird die Unsicherheit in den Eingaben präzise nachverfolgt. Der Beitrag liefert erstmals geschlossene Formeln für die Momentenabgleichverfahren

arXiv – cs.LG 02.02.2026 05:00

Forschung

Transformers neu gedacht: Optimierungsbeschränkungen steigern Robustheit

In einer kürzlich veröffentlichten Studie auf arXiv wird ein neues Konzept vorgestellt, das Transformer‑Modelle mithilfe von Beschränkungen…

arXiv – cs.LG 27.01.2026 05:00

Forschung

GLOSS: Neue Methode eliminiert toxische Subräume in Sprachmodellen

Large Language Models (LLMs) liefern beeindruckende Ergebnisse, doch ihre Fähigkeit, toxische Inhalte zu erzeugen, stellt ein ernsthaftes S…

arXiv – cs.LG 13.01.2026 05:00

Forschung

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

Direct Preference Optimization (DPO) bietet eine skalierbare Alternative zu RLHF, um große Sprachmodelle anhand von Paarpräferenzen auszuri…

arXiv – cs.LG 13.01.2026 05:00

Forschung

MixtureKit: Neues Open-Source-Framework für modulare Mixture-of-Experts-Modelle

Mit MixtureKit erhält die Forschung ein vielseitiges, quelloffenes Tool, das die Erstellung, das Training und die Analyse von Mixture-of-Ex…

arXiv – cs.LG 16.12.2025 05:00

Forschung

<h1>Wann profitieren Deep‑Learning‑Modelle von spektralen Gradientenupdates?</h1> <p>In der Welt des Deep Learning haben spektrale Gradientenmethoden – darunter der neu aufgelegte Muon‑Optimizer – großes Interesse geweckt. Sie stellen eine Alternative zum klassischen euklidischen Gradientenabstieg dar, doch bislang war unklar, in welchen Situationen sie tatsächlich überlegen sind.</p> <p>Die neue Studie liefert dafür eine klare Antwort: Sie führt eine einfache, schichtweise Bedingung ein, die vorhersagt, wa

arXiv – cs.LG 05.12.2025 05:00

Forschung

Wie Zeitreihen-Foundation-Modelle ihre internen Konzepte darstellen

Die neu aufkommenden Zeitreihen-Foundation-Modelle (TSFMs) gelten als universelles Paradigma für das Lernen in vielfältigen zeitlichen Domä…

arXiv – cs.LG 20.11.2025 05:00

Forschung

Lexikografische Bandits: Regret-Minimierung trifft Arm-Identifikation

In einem neuen Beitrag auf arXiv wird ein bedeutender Fortschritt im Bereich der mehrdimensionalen Entscheidungsfindung vorgestellt. Die Au…

arXiv – cs.LG 11.11.2025 05:00

Forschung

ScaleDL: Skalierbare Laufzeitvorhersage für verteilte Deep‑Learning‑Workloads

Deep‑Neurale Netzwerke bilden die Grundlage moderner KI‑Dienste – von selbstfahrenden Autos über Chatbots bis hin zu Empfehlungssystemen. M…

arXiv – cs.LG 07.11.2025 05:00

Forschung

RMT-KD: Mathematisch fundierte Kompression von Deep Learning Modellen

Neue Forschung aus dem Bereich der Random Matrix Theory (RMT) liefert einen innovativen Ansatz zur Reduktion großer neuronaler Netze. Der v…

arXiv – cs.LG 22.09.2025 05:00

Forschung

Neues Initialisierungskonzept verbessert Stabilität tiefer neuronaler Netze

In den letzten Jahren wurden zahlreiche Initialisierungsmethoden für neuronale Netze entwickelt, darunter die bekannten Glorot- und He-Init…

arXiv – cs.LG 08.09.2025 05:00

Forschung

LLM-Pruning bleibt wahrheitsgetreu: Neue Methode schützt Fakten

Neuer Forschungsbericht aus dem arXiv-Repository zeigt, dass das gezielte Entfernen von Gewichten in großen Sprachmodellen (LLMs) – ein bel…

arXiv – cs.LG 03.09.2025 05:00

Forschung

ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise

Die Quantisierung großer Sprachmodelle reduziert die Kosten für deren Einsatz erheblich. Während die nachträgliche Quantisierung (PTQ) wege…

arXiv – cs.LG 03.09.2025 05:00

Finde Modelle, Firmen und Themen

Neues Riemannian-Optimierungsverfahren verbessert modulare Systeme

Quantum-Optimierung: exakte und asymptotisch vollständige Robustheitsprüfung neuronaler Netze

Effiziente Tool-Orchestrierung mit reflektiver Fehlerkorrektur

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %

Sparse Adapter Fusion: Parameter sparen bei kontinuierlichem NLP‑Lernen

Transformers neu gedacht: Optimierungsbeschränkungen steigern Robustheit

GLOSS: Neue Methode eliminiert toxische Subräume in Sprachmodellen

SPINAL: Wie DPO die Tiefe von Sprachmodellen präzise anpasst

MixtureKit: Neues Open-Source-Framework für modulare Mixture-of-Experts-Modelle

Wie Zeitreihen-Foundation-Modelle ihre internen Konzepte darstellen

Lexikografische Bandits: Regret-Minimierung trifft Arm-Identifikation

ScaleDL: Skalierbare Laufzeitvorhersage für verteilte Deep‑Learning‑Workloads

RMT-KD: Mathematisch fundierte Kompression von Deep Learning Modellen

Neues Initialisierungskonzept verbessert Stabilität tiefer neuronaler Netze

LLM-Pruning bleibt wahrheitsgetreu: Neue Methode schützt Fakten

ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise

🍪 Cookie-Einstellungen

WSBD: Neuer Optimierer für Quantenneuronale Netze beschleunigt Training um 64 %