Suche nach Selbstaufmerksamkeit

Neuer Swin-Transformer simuliert 3D-Turbulenz mit physikalischer Präzision

Die genaue Simulation turbulenter Strömungen ist für Forschung und Technik unverzichtbar. Während die direkte numerische Simulation (DNS) d…

arXiv – cs.AI 12.02.2026 05:00

Forschung

Neuer Graph-Transformer mit serialisierten Graph-Tokens erzielt Rekordleistungen

Ein neuer Ansatz für Graph-Transformer, der auf serialisierten Graph-Tokens basiert, hat die Grenzen der graphbasierten Lernverfahren neu d…

arXiv – cs.AI 11.02.2026 05:00

Forschung

<h1>Sketch-and-Walk: Sparsere Attention für schnellere LLM‑Inferenz</h1> <p>Die Selbstaufmerksamkeit ist der Hauptfaktor, der die Rechen- und Speicherkosten bei der Inferenz von großen Sprachmodellen (LLMs) mit langen Kontexten bestimmt. Sowohl die Vor‑ als auch die Decodierungsphase sind dadurch stark belastet.</p> <p>Um dieses Problem zu lösen, wurde Sketch&Walk Attention entwickelt – ein sparsames Aufmerksamkeitsverfahren, das ohne Training auskommt. Es nutzt Hadamard‑Sketching, um kostengünstige Schätz

arXiv – cs.LG 10.02.2026 05:00

Forschung

Graphfilter-Framework erkennt und lokalisiert Falsche-Datenangriffe im Stromnetz

Mit der zunehmenden Verbreitung von IoT‑basierten Messgeräten in modernen Stromnetzen wächst die Angriffsfläche für Cyberangriffe erheblich…

arXiv – cs.LG 28.01.2026 05:00

Forschung

Neues FAConvLSTM-Modell steigert Effizienz und Genauigkeit bei Klimadatenanalyse

Die Analyse hochauflösender, multivariater Erdbeobachtungsdaten erfordert die Erfassung komplexer, physikalisch bedeutungsvoller räumlich‑z…

arXiv – cs.LG 19.01.2026 05:00

Forschung

Searth Transformer revolutioniert mittelfristige Wettervorhersage weltweit

Ein neues Transformer-Modell namens Searth Transformer hat die Art und Weise, wie wir mittelfristige Wettervorhersagen erstellen, grundlege…

arXiv – cs.LG 15.01.2026 05:00

Forschung

FADTI: Fourier‑ und Attention‑basiertes Diffusionsmodell für Zeitreihen‑Imputation

Die Imputation von multivariaten Zeitreihen ist in Bereichen wie Gesundheitswesen, Verkehrsprognosen und biologischer Modellierung von zent…

arXiv – cs.LG 18.12.2025 05:00

Forschung

Testzeit-Training steigert Leistung von LLMs mit langen Kontexten

Mit den neuesten Fortschritten in Training und Architektur können große Sprachmodelle inzwischen Millionen von Tokens im Kontext verarbeite…

arXiv – cs.LG 17.12.2025 05:00

Forschung

Initialisierung entscheidet: Ist In‑Context‑Lernen Gradient Descent?

In‑Context‑Learning (ICL) ist ein faszinierendes Phänomen bei großen Sprachmodellen, dessen Funktionsweise jedoch noch nicht vollständig ge…

arXiv – cs.LG 05.12.2025 05:00

Forschung

TRIM‑KV: Intelligente Token‑Retention verbessert LLM‑Speicherleistung

In der Welt der großen Sprachmodelle (LLMs) stellen Speicher- und Rechenkosten die größten Hindernisse für lange Kontextverarbeitung dar. D…

arXiv – cs.LG 04.12.2025 05:00

Forschung

Modernes Hopfield-Netzwerk verbessert Transformer durch versteckte Zustände

In einer kürzlich veröffentlichten Studie auf arXiv (2511.20698v1) wird gezeigt, dass die versteckten Zustände moderner Hopfield‑Netzwerke…

arXiv – cs.AI 27.11.2025 05:00

Forschung

Neues Netzwerk: Topologic Attention ermöglicht effiziente globale Graph-Analyse

Graph Neural Networks (GNNs) haben sich als leistungsstarke Werkzeuge zur Analyse von Netzwerken etabliert, doch ihre klassische lokale Nac…

arXiv – cs.LG 24.11.2025 05:00

Forschung

Selbstaufmerksamkeit als Verteilungssprojektion: Einheitliche Transformer‑Analyse

Ein neues arXiv‑Veröffentlichung (2511.13780v1) liefert eine mathematische Interpretation der Selbstaufmerksamkeit, die sie mit Prinzipien…

arXiv – cs.LG 19.11.2025 05:00

Forschung

Reise-Wellen als neue Positionskodierung für Transformer: RollPE schlägt RoPE

Transformers benötigen Positionskodierungen, um die inhärente Permutationsinvarianz der Selbstaufmerksamkeit zu kompensieren. Traditionell…

arXiv – cs.LG 18.11.2025 05:00

Forschung

Neues Modell ST‑SAM verbessert Verkehrsprognosen dank Selbst‑Aufmerksamkeit

Wissenschaftler haben ein neues Verfahren namens ST‑SAM entwickelt, das die Vorhersage von Verkehrsströmen in einer Region deutlich verbess…

arXiv – cs.AI 12.11.2025 05:00

Forschung

MACTAS: Selbstaufmerksamkeit verbessert Agentenkommunikation im MARL

In der Welt des Multi-Agenten‑Reinforcement Learning (MARL) ist Kommunikation das Herzstück, wenn mehrere Agenten komplexe Aufgaben gemeins…

arXiv – cs.LG 20.08.2025 05:00

Forschung

Neuer Set Transformer berücksichtigt Abundanz für präzise Mikrobiom-Embeddings

Die präzise Repräsentation von Mikrobiom-Proben ist entscheidend für die Nutzung großer Sprachmodelle bei Aufgaben wie Phänotypvorhersage u…

arXiv – cs.LG 18.08.2025 05:00

Finde Modelle, Firmen und Themen

Neuer Swin-Transformer simuliert 3D-Turbulenz mit physikalischer Präzision

Neuer Graph-Transformer mit serialisierten Graph-Tokens erzielt Rekordleistungen

Graphfilter-Framework erkennt und lokalisiert Falsche-Datenangriffe im Stromnetz

Neues FAConvLSTM-Modell steigert Effizienz und Genauigkeit bei Klimadatenanalyse

Searth Transformer revolutioniert mittelfristige Wettervorhersage weltweit

FADTI: Fourier‑ und Attention‑basiertes Diffusionsmodell für Zeitreihen‑Imputation

Testzeit-Training steigert Leistung von LLMs mit langen Kontexten

Initialisierung entscheidet: Ist In‑Context‑Lernen Gradient Descent?

TRIM‑KV: Intelligente Token‑Retention verbessert LLM‑Speicherleistung

Modernes Hopfield-Netzwerk verbessert Transformer durch versteckte Zustände

Neues Netzwerk: Topologic Attention ermöglicht effiziente globale Graph-Analyse

Selbstaufmerksamkeit als Verteilungssprojektion: Einheitliche Transformer‑Analyse

Reise-Wellen als neue Positionskodierung für Transformer: RollPE schlägt RoPE

Neues Modell ST‑SAM verbessert Verkehrsprognosen dank Selbst‑Aufmerksamkeit

MACTAS: Selbstaufmerksamkeit verbessert Agentenkommunikation im MARL

Neuer Set Transformer berücksichtigt Abundanz für präzise Mikrobiom-Embeddings

🍪 Cookie-Einstellungen