KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Multi-Head Attention”

Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall

Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interf…

arXiv – cs.LG 16.02.2026 05:00

<p>Transformer‑Attention als Mehrspieler‑Spiel: Neue Theorie reduziert Halluzinationen um 18 %</p> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird die interne Funktionsweise von Transformer‑Attention neu beleuchtet. Die Autoren zeigen, dass die einzelnen Attention‑Heads nicht wie ein einzelner Optimierer agieren, sondern als unabhängige Agenten konkurrieren und kooperieren.</p> <p>Durch die gängige Kreuzentropie‑Optimierung entsteht dabei ein implizites Potentialspiel zwischen den Heads. Gradien

arXiv – cs.AI 03.02.2026 05:00

SigMA: Deep-Learning-Methode verbessert Parametererkennung bei fBm-SDEs

Stochastische Differentialgleichungen, die von fractional Brownian Motion (fBm) getrieben werden, modellieren zunehmend Systeme mit rauen D…

arXiv – cs.LG 18.12.2025 05:00

KI-Modell prognostiziert Kuhlebensdauer mit 83 % Genauigkeit

Milchviehhalter stehen vor der schwierigen Aufgabe, zu entscheiden, ob eine Kuh im Bestand verbleiben oder aussortiert werden soll. Eine ob…

arXiv – cs.LG 27.11.2025 05:00

GContextFormer revolutioniert multimodale Trajektorienvorhersage ohne HD‑Karten

Die Vorhersage von Fahrzeugtrajektorien in mehreren möglichen Zukünften ist ein zentrales Problem der autonomen Mobilität. Modelle, die auf…

arXiv – cs.AI 25.11.2025 05:00

Starke Lotterie-Ticket-Hypothese gilt auch für Multi-Head-Attention in Transformers

Eine neue theoretische Untersuchung bestätigt, dass die starke Lotterie-Ticket-Hypothese (SLTH) – die besagt, dass leistungsfähige Teilnetz…

arXiv – cs.LG 07.11.2025 05:00