Suche nach Autoregressive

Quantum‑inspiriertes Self‑Attention steigert GPT‑1‑Leistung um 15,5‑fach

In den letzten Jahren haben transformerbasierte Modelle die Entwicklung der natürlichen Sprachverarbeitung maßgeblich vorangetrieben. Dabei…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Neuer Graph-Transformer revolutioniert Vorhersage von Wellenfunktionen in TDDFT

In der Echtzeit‑TDDFT (zeitabhängige Dichtefunktionaltheorie) werden die elektronischen Wellenfunktionen eines Moleküls kontinuierlich in R…

arXiv – cs.LG 05.03.2026 05:00

Forschung

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

In einer neuen Veröffentlichung auf arXiv präsentiert HiMAC ein innovatives, hierarchisches Lernframework, das Large Language Model (LLM)-A…

arXiv – cs.AI 03.03.2026 05:00

Forschung

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

Praxis

Google AI präsentiert STATIC: 948‑fach schnellere LLM‑basierte Generative Retrieval

Google AI hat mit dem neuen Framework STATIC einen Meilenstein im Bereich der generativen Retrieval‑Technologien gesetzt. Durch die Nutzung…

MarkTechPost 01.03.2026 21:47

Forschung

Variationsinferenz verbessert parallele Token‑Generierung bei MDMs

Maskierte diskrete Diffusionsmodelle (MDMs) ermöglichen die gleichzeitige Erzeugung mehrerer Tokens und bieten damit eine vielversprechende…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neue LK-Verluste steigern Akzeptanzrate bei spekulativem Decoding von LLMs

Spekulatives Decoding beschleunigt die Inferenz von autoregressiven Sprachmodellen, indem ein leichtes Draft-Modell zunächst Kandidatentoke…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neues KI-Modell revolutioniert weltweite Flussvorhersagen ohne historische Daten

Ein neues KI-Modell namens GraphRiverCast (GRC) hat die Art und Weise, wie wir globale Flussnetzwerke simulieren, grundlegend verändert. Du…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Schnelle Konvergenzraten bei Maskierten Diffusionsmodellen

Diskrete Diffusionsmodelle haben in den letzten Jahren bemerkenswerte Erfolge in Text- und Symbolverarbeitungsaufgaben erzielt. Besonders d…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Neues RL-Framework I-TAP revolutioniert Planung in verrauschten Umgebungen

Das neu veröffentlichte Framework I‑TAP (In‑Context Latent Temporal‑Abstraction Planner) löst zwei zentrale Probleme des planungsbasierten…

arXiv – cs.LG 24.02.2026 05:00

Forschung

SGNO: Neuer Neural Operator stabilisiert lange PDE‑Rollouts

Forscher haben einen neuen Neural Operator namens SGNO vorgestellt, der lange Rollouts von partiellen Differentialgleichungen (PDEs) stabil…

arXiv – cs.LG 24.02.2026 05:00

Forschung

AnCoder: Diffusionsbasierte Codegenerierung mit struktureller Ankerung

Ein neues Modell namens AnCoder, veröffentlicht auf arXiv (2602.17688v1), präsentiert Diffusions‑Sprachmodelle als überzeugende Alternative…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

Große Rechenmodelle für komplexe Aufgaben sind äußerst leistungsfähig, doch ihr Training mit Reinforcement Learning (RL) bleibt ein Engpass…

arXiv – cs.LG 20.02.2026 05:00

Forschung

Neuro-Symbolische Graphgenerierung: Kontrolle und Garantien für Moleküle

In einer wegweisenden Studie stellen Forscher die Grenzen reiner Deep‑Learning‑Ansätze für die Molekül- und Graphgenerierung in den Fokus…

arXiv – cs.LG 20.02.2026 05:00

Forschung

DSL: Stochastische Lokalisierung steigert Effizienz bei NAR-Generierung

Eine neue Technik namens DSL (Discrete Stochastic Localization) verspricht, die Geschwindigkeit und Qualität von nicht-autoregressiven Text…

arXiv – cs.LG 19.02.2026 05:00

Forschung

Zwei-Stream-Attention: Schlüssel zum Erfolg bei Any-Order Autoregressive Modellen

Any-Order Autoregressive Models (AO-ARMs) eröffnen einen vielversprechenden Weg zu effizienter maskierter Diffusion, indem sie native Key‑V…

arXiv – cs.LG 19.02.2026 05:00

Forschung

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

In der Peer‑Review‑Welt sind tiefgründige, evidenzbasierte Fragen entscheidend. Bisher erzeugen jedoch die meisten großen Sprachmodelle (LL…

arXiv – cs.AI 19.02.2026 05:00

Forschung

<p>Logit-Abstand liefert neue Grenzen für Modellrepräsentationen</p> <p>In einer kürzlich veröffentlichten Studie auf arXiv wird gezeigt, dass bei einer breiten Klasse von diskriminativen Modellen – zu denen auch autoregressive Sprachmodelle gehören – die internen Repräsentationen zweier Modelle bis auf eine invertierbare lineare Transformation übereinstimmen, wenn sie exakt dieselben bedingten Wahrscheinlichkeiten erzeugen. Die Frage, ob ein ähnliches Ergebnis auch bei annähernd gleichen Verteilungen gilt,

arXiv – cs.LG 18.02.2026 05:00

Forschung

DiffusionRollout: Unsicherheitsbewusste Rollout-Planung für PDEs

Wissenschaftler haben DiffusionRollout vorgestellt, eine neue Strategie zur selektiven Rollout-Planung für autoregressive Diffusionsmodelle…

arXiv – cs.AI 17.02.2026 05:00

Forschung

<h1>Diffusionsmodelle können formale Syntax einhalten – neue Methode</h1> <p>Diffusionsbasierte Sprachmodelle gelten als vielversprechende Alternative zu autoregressiven Systemen, weil sie Texte global und ohne kausale Abhängigkeiten erzeugen. Ihre kontinuierlichen latenten Zustände machen jedoch die Durchsetzung diskreter Vorgaben – etwa das Erzeugen eines JSON‑Dokuments, das einem vorgegebenen Schema entspricht – schwierig.</p> <p>Die neue, trainingsfreie Guidance‑Methode löst dieses Problem, indem sie ei

arXiv – cs.LG 16.02.2026 05:00

Forschung

MCTS verbessert Slot‑Filling in Diffusion‑Modellen – McDiffuSE steigert Genauigkeit um 8 %

In Masked Diffusion Models (MDMs) spielt die Reihenfolge, in der Lücken gefüllt werden, eine entscheidende Rolle für die Qualität der Ausga…

arXiv – cs.AI 16.02.2026 05:00

Forschung

Sprachmodell beschleunigt RNA‑Design um 70 % und steigert Genauigkeit

Ein neues Verfahren nutzt ein autoregressives Sprachmodell, um RNA‑Sequenzen direkt aus einer gewünschten Sekundärstruktur zu generieren. D…

arXiv – cs.AI 16.02.2026 05:00

Forschung

HyperMLP: Neue Perspektive für Sequenzmodellierung – MLP statt Attention

In einer wegweisenden Veröffentlichung auf arXiv präsentiert das Team hinter HyperMLP einen völlig neuen Blickwinkel auf die klassische Sel…

arXiv – cs.LG 16.02.2026 05:00

Forschung

LLMs: Richtig aus falschen Gründen – neue Technik verhindert Rung‑Collapse

In einer kürzlich veröffentlichten Studie auf arXiv wird aufgezeigt, warum große Sprachmodelle oft „richtig“ antworten, obwohl sie dies aus…

arXiv – cs.AI 13.02.2026 05:00

Forschung

ProtoT: Ein neuer Transformer, der mit Prototypen erklärbar bleibt

Die neueste Veröffentlichung auf arXiv (2602.11852v1) stellt den Prototype Transformer (ProtoT) vor – ein autoregressives Sprachmodell, das…

arXiv – cs.AI 13.02.2026 05:00

Forschung

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust

Die neueste Veröffentlichung auf arXiv (2602.11408v1) stellt GHOST vor – ein strukturiertes Pruning‑Framework, das die enorme Zustandsdimen…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Progressive Unmasking beschleunigt Masked Diffusion Training um 2,5×

Masked Diffusion Models (MDMs) haben sich als vielversprechende Methode für generative Modelle in diskreten Räumen etabliert. Durch die Mög…

arXiv – cs.LG 12.02.2026 05:00

Forschung

V-STAR: Wertgesteuerte Stichprobe und Optimierung für generative Empfehlungen

Autoregressive Modelle haben die Suche und das Ranking in einem einzigen generativen Rahmen vereint. Beim Feintuning dieser Modelle mit Rei…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Neuer Swin-Transformer simuliert 3D-Turbulenz mit physikalischer Präzision

Die genaue Simulation turbulenter Strömungen ist für Forschung und Technik unverzichtbar. Während die direkte numerische Simulation (DNS) d…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Cadmus: Kostengünstiges System für kontrollierte Programmsynthese

Mit dem neuen System Cadmus können Forscher jetzt Programmsynthese in einem erschwinglichen Rahmen untersuchen. Das System kombiniert eine…

arXiv – cs.AI 11.02.2026 05:00

Finde Modelle, Firmen und Themen

Quantum‑inspiriertes Self‑Attention steigert GPT‑1‑Leistung um 15,5‑fach

Neuer Graph-Transformer revolutioniert Vorhersage von Wellenfunktionen in TDDFT

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

Google AI präsentiert STATIC: 948‑fach schnellere LLM‑basierte Generative Retrieval

Variationsinferenz verbessert parallele Token‑Generierung bei MDMs

Neue LK-Verluste steigern Akzeptanzrate bei spekulativem Decoding von LLMs

Neues KI-Modell revolutioniert weltweite Flussvorhersagen ohne historische Daten

Schnelle Konvergenzraten bei Maskierten Diffusionsmodellen

Neues RL-Framework I-TAP revolutioniert Planung in verrauschten Umgebungen

SGNO: Neuer Neural Operator stabilisiert lange PDE‑Rollouts

AnCoder: Diffusionsbasierte Codegenerierung mit struktureller Ankerung

Effizientes Training großer Rechenmodelle durch Progressive Thought Encoding

Neuro-Symbolische Graphgenerierung: Kontrolle und Garantien für Moleküle

DSL: Stochastische Lokalisierung steigert Effizienz bei NAR-Generierung

Zwei-Stream-Attention: Schlüssel zum Erfolg bei Any-Order Autoregressive Modellen

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

DiffusionRollout: Unsicherheitsbewusste Rollout-Planung für PDEs

MCTS verbessert Slot‑Filling in Diffusion‑Modellen – McDiffuSE steigert Genauigkeit um 8 %

Sprachmodell beschleunigt RNA‑Design um 70 % und steigert Genauigkeit

HyperMLP: Neue Perspektive für Sequenzmodellierung – MLP statt Attention

LLMs: Richtig aus falschen Gründen – neue Technik verhindert Rung‑Collapse

ProtoT: Ein neuer Transformer, der mit Prototypen erklärbar bleibt

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust

Progressive Unmasking beschleunigt Masked Diffusion Training um 2,5×

V-STAR: Wertgesteuerte Stichprobe und Optimierung für generative Empfehlungen

Neuer Swin-Transformer simuliert 3D-Turbulenz mit physikalischer Präzision

Cadmus: Kostengünstiges System für kontrollierte Programmsynthese

🍪 Cookie-Einstellungen

MCTS verbessert Slot‑Filling in Diffusion‑Modellen – McDiffuSE steigert Genauigkeit um 8 %

Sprachmodell beschleunigt RNA‑Design um 70 % und steigert Genauigkeit

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust