KI-News fuer Neueste Signale.

Deep Learning

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

LLM

Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.

Reinforcement Learning

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Sprachmodelle

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

News Stream

Mehr Signale im Flow

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG

06.03.2026 05:00

Transformer-MLPs: Hälfte der Nichtlinearität verschwendet – spart Rechenleistung

Eine neue Studie auf arXiv zeigt, dass bei Transformer‑Modellen bis zu die Hälfte der nichtlinearen Berechnungen im MLP‑Block unnötig ist…

arXiv – cs.LG

05.03.2026 05:00

Quantum‑inspiriertes Self‑Attention steigert GPT‑1‑Leistung um 15,5‑fach

In den letzten Jahren haben transformerbasierte Modelle die Entwicklung der natürlichen Sprachverarbeitung maßgeblich vorangetrieben. Dabei…

arXiv – cs.AI

05.03.2026 05:00

Praxis

Erstelle einen fortschrittlichen Tree-of-Thoughts-Agenten: Beam Search, Heuristik & Tiefenbeschränkung

In diesem Tutorial zeigen wir, wie man von Grund auf einen hochentwickelten Tree-of-Thoughts (ToT)-Agenten mit mehreren Zweigen konzipiert…

MarkTechPost

05.03.2026 17:00

Praxis

FlexAttention nutzt FlashAttention‑4 – flexibler Hopper & Blackwell

FlexAttention hat jetzt einen FlashAttention‑4‑Backend auf den neuesten NVIDIA GPUs Hopper und Blackwell. Das bedeutet deutlich schnellere…

PyTorch – Blog

05.03.2026 17:55

Transformer trennt Sprache & Wissensgraph – neue Joint-Training-Architektur

Eine neue Architektur für Transformer‑Modelle, die sowohl Sätze als auch strukturierte Daten gleichzeitig trainiert, wurde vorgestellt. Das…

arXiv – cs.AI

05.03.2026 05:00

TransConv-DDPM: Neues Diffusionsmodell erzeugt medizinische Zeitreihen

In der klinischen Forschung fehlt es häufig an realen Daten, was die Entwicklung leistungsfähiger KI‑Modelle für Diagnose und Prävention er…

arXiv – cs.LG

10.02.2026 05:00

Neues Modell Palimpsa erweitert Gedächtnisleistung von Attention‑Netzwerken

In-Context Learning (ICL) in Transformer‑Modellen fungiert als Online‑Assoziativspeicher und gilt als Schlüssel zu ihrer hohen Leistungsfäh…

arXiv – cs.AI

11.02.2026 05:00

Transformers ermöglichen In-Context-Lernen für Motorsteuerung

In einer bahnbrechenden Veröffentlichung zeigen Forscher, dass große Sprachmodelle (LLMs) nicht nur Texte, sondern auch komplexe Signalvera…

arXiv – cs.LG

10.02.2026 05:00

Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations

Die Trainingszeit großer Sprachmodelle wird häufig durch die vielen Matrixmultiplikationen im Transformer begrenzt. Besonders im Feed‑Forwa…

arXiv – cs.LG

09.02.2026 05:00

Neues EEG-Emotionserkennungsmodell mit Hybrid-Transformer erzielt Rekordleistung

Emotionserkennung aus Elektroenzephalographie (EEG) ist ein zentrales Thema in der affektiven Informatik und für Entscheidungshilfesysteme…

arXiv – cs.LG

09.02.2026 05:00

Skjold-DiT: Diffusions-Transformer für klimafreundliches, sichereres Wohnen

Ein brandneues Modell namens Skjold‑DiT verspricht, die Art und Weise, wie Städte auf Klimarisiken reagieren, grundlegend zu verändern. Dur…

arXiv – cs.AI

09.02.2026 05:00

SSM-Modelle übertreffen Transformer beim Codeverständnis – neue Analyse

In einer wegweisenden Studie wird gezeigt, dass State‑Space‑Modelle (SSMs) die Transformer‑Architektur bei Aufgaben zum Verständnis von Pro…

arXiv – cs.AI

09.02.2026 05:00

Energieeffizienz bei LLM-Inferezen: optimale Eingabe-/Ausgabe-Längen

Die Energie, die große Sprachmodelle (LLMs) bei der Inferenz verbrauchen, ist ein entscheidender Faktor für moderne KI-Anwendungen. Traditi…

arXiv – cs.AI

06.02.2026 05:00

Momentum Attention: Physikbasierter Ansatz für In‑Context‑Lernen

Das Mechanistic Interpretability‑Programm hat den Transformer bereits als präzises Rechengraphen‑Modell abgebildet. In der neuesten Veröff…

arXiv – cs.LG

06.02.2026 05:00

Neues QKNorm: Lp‑Norm‑basierte Normalisierung für Transformer

Die Stabilität von Transformer‑Modellen hängt stark von der Normalisierung der Query‑ und Key‑Vektoren ab. Durch die Skalierung dieser Vekt…

arXiv – cs.LG

06.02.2026 05:00

Strokes als Rosetta Stone: Neue Methode zur Interpretation von Sprachmodellen

Die Leistungsfähigkeit großer Sprachmodelle (LLMs) ist unbestreitbar, doch bleibt die Frage, welche internen Komponenten wirklich für die S…

arXiv – cs.LG

05.02.2026 05:00

Neues Paper: Lernbare Koopman-Operatoren verbessern Transformer-Vorhersagen

Ein neues arXiv-Paper präsentiert eine innovative Familie lernbarer Koopman-Operatoren, die lineare Dynamiktheorie mit modernen Deep‑Learni…

arXiv – cs.LG

04.02.2026 05:00

Effiziente Blockentfernung bei großen Sprachmodellen: Optimierung mit Ising-Modell

Die Reduktion ressourcenintensiver Sprachmodelle durch das Entfernen ganzer Transformer‑Blöcke klingt zunächst simpel, ist jedoch ein expon…

arXiv – cs.LG

03.02.2026 05:00

Praxis

NVIDIA stellt Nemotron-3-Nano-30B in NVFP4 mit QAD für effiziente Inferenz vor

NVIDIA hat den Produktions-Checkpoint Nemotron‑Nano‑3‑30B‑A3B‑NVFP4 veröffentlicht, der ein 30‑Billionen‑Parameter‑Modell für logisches Den…

MarkTechPost

02.02.2026 07:26

Sprach-, Sicht- und Handlungsmodelle zeigen überraschende Übereinstimmung

Eine neue Studie aus dem Bereich der Kognitionswissenschaft und künstlichen Intelligenz hat gezeigt, dass Modelle, die auf unterschiedliche…

arXiv – cs.AI

02.02.2026 05:00

WED-Net: Wettereffekte entwirren – neues Netzwerk für urbane Verkehrsprognosen

Die Vorhersage von Verkehrsflüssen in Städten unter extremen Wetterbedingungen, wie starkem Regen, stellt eine große Herausforderung dar. D…

arXiv – cs.AI

02.02.2026 05:00