Suche nach Perplexität

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem C…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Transformer-Keys verkleinern: Low-Dimensional Attention spart Speicher

In einer neuen Studie wird die bisherige Symmetrie im Transformer‑Attention‑Mechanismus in Frage gestellt. Während klassische Modelle diese…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Transformer-MLPs: Hälfte der Nichtlinearität verschwendet – spart Rechenleistung

Eine neue Studie auf arXiv zeigt, dass bei Transformer‑Modellen bis zu die Hälfte der nichtlinearen Berechnungen im MLP‑Block unnötig ist…

arXiv – cs.LG 05.03.2026 05:00

Forschung

Transformer-Modelle absorbieren Routing-Signale – Random Gates bleiben konkurrenzfähig

Eine neue Untersuchung auf arXiv zeigt, dass Transformer‑Modelle, die sparsames Attention end‑to‑end trainieren, die Routing‑Signale ihrer…

arXiv – cs.LG 04.03.2026 05:00

Forschung

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

Protein‑Sprachmodelle (pLMs) haben die Forschung im Bereich der Wirkstoffentwicklung neu definiert, indem sie aus großen, ständig aktualisi…

arXiv – cs.LG 03.03.2026 05:00

Forschung

GRAIL: Post-hoc Linear-Reconstruction kompensiert Kompression von Deep Networks

GRAIL ist ein neuer Ansatz, der die Genauigkeitsverluste nach aggressiver Kompression von tiefen neuronalen Netzen adressiert. Der Ansatz n…

arXiv – cs.LG 02.03.2026 05:00

Forschung

TradeFM: Generatives Modell für Handelsströme und Marktstruktur

Ein neues, 524‑Millionen‑Parameter‑Transformer‑Modell namens TradeFM hat die Art und Weise, wie wir Markt‑Microstruktur verstehen, revoluti…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

Der Muon-Optimierer hat bereits bei der Vortrainierung großer Sprachmodelle vielversprechende Ergebnisse erzielt, indem er Gradienten (oder…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Gewichtsfelder ohne Interferenz: Verluste bei LLM‑Erweiterungen vermeiden

In einer neuen Studie von ArXiv (2602.18628v1) wird ein innovatives Konzept vorgestellt, das die klassische Idee fester Gewichtvektoren in…

arXiv – cs.LG 24.02.2026 05:00

Forschung

GrMoE: Neue Routing‑Methode für Mixture‑of‑Experts mit kontrollierter Sparsität

Mixture‑of‑Experts‑Modelle setzen auf Router, um Tokens an Experten zu verteilen. Die gängige Softmax‑Gating‑Methode bietet jedoch keine kl…

arXiv – cs.LG 23.02.2026 05:00

Forschung

GeneZip: DNA-Kompression mit regionalem Fokus erreicht 137,6-fache Reduktion

Die neue Methode GeneZip löst ein zentrales Problem der Genomforschung: die Verarbeitung von Sequenzen, die Milliarden von Basenpaaren umfa…

arXiv – cs.AI 23.02.2026 05:00

Forschung

LLM-Prompts: Code komprimiert besser als Mathematik – das Perplexity-Paradox erklärt

Eine neue Studie aus dem arXiv-Repository (2602.15843v1) klärt ein bislang unbestätigtes Phänomen in der Welt der großen Sprachmodelle (LLM…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Sign Lock-In: Gewichtszeichen bleiben stabil – neue Theorie

In der neuesten Studie zur Sub‑Bit‑Modellkompression wird gezeigt, dass die Signatur der Gewichte – also deren Vorzeichen – ein entscheiden…

arXiv – cs.LG 20.02.2026 05:00

Forschung

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust

Die neueste Veröffentlichung auf arXiv (2602.11408v1) stellt GHOST vor – ein strukturiertes Pruning‑Framework, das die enorme Zustandsdimen…

arXiv – cs.AI 13.02.2026 05:00

Forschung

Hardware‑Co‑Design: Neue Skalierungsformeln für On‑Device LLMs

Vision‑Language‑Action‑Modelle (VLAs) sind inzwischen ein zentrales Element der Physical AI und finden in autonomen Fahrzeugen, Robotern un…

arXiv – cs.LG 12.02.2026 05:00

Forschung

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

Die neuesten Fortschritte bei Mixture-of-Experts (MoE) Modellen haben die Leistungsfähigkeit großer Sprachmodelle deutlich gesteigert – doc…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Attractor Patch Networks: Katastrophales Vergessen verhindern

Transformers haben die Sprachmodellierung revolutioniert, doch ihre dichten, globalen Feed‑Forward‑Netzwerke (FFNs) verbrauchen für jedes T…

arXiv – cs.LG 10.02.2026 05:00

Forschung

Perplexität neu gedacht: Eingabelänge beeinflusst Bewertung von LLMs

Die Perplexität gilt seit langem als Standardmaß für die Vorhersagequalität großer Sprachmodelle. Doch neue Untersuchungen zeigen, dass sie…

arXiv – cs.LG 05.02.2026 05:00

Forschung

Neues Phänomen: „Robert Boulton“-Singularität in rekursiver KI entdeckt

Eine kürzlich veröffentlichte Studie auf arXiv beleuchtet ein bislang unentdecktes Problem bei generativen KI‑Modellen, die auf rekursiv er…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Benford-Quant: Logarithmisch angepasste Quantisierung steigert LLM-Leistung

Mit dem rasanten Wachstum großer Sprachmodelle steigt der Bedarf an effektiven Kompressionsmethoden. Die am häufigsten eingesetzte Technik…

arXiv – cs.LG 03.02.2026 05:00

Forschung

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

Die neueste Forschung im Bereich der Post-Training-Quantisierung (PTQ) hat gezeigt, dass Blockrotationen ein vielversprechendes Mittel sind…

arXiv – cs.LG 02.02.2026 05:00

Forschung

ZK-HybridFL: Zero-Knowledge Proofs stärken dezentrale Federated Learning

Die neue Plattform ZK-HybridFL kombiniert die Vorteile von Directed Acyclic Graph (DAG)-Ledgers, dedizierten Sidechains und Zero-Knowledge…

arXiv – cs.LG 02.02.2026 05:00

Produkt

Amazon Nova bewertet generative KI-Modelle als Schiedsrichter auf SageMaker

Amazon Nova, ein neuer Dienst von Amazon, fungiert als unabhängiger Schiedsrichter für große Sprachmodelle (LLMs) auf der SageMaker-Plattfo…

AWS – Machine Learning Blog 30.01.2026 21:07

Aktuell

Erfolgskennzahlen für GPT‑6: Wie man KI‑Produkte richtig bewertet

Der Erfolg eines KI‑Produkts wie GPT‑6 lässt sich nicht nur an einer einzigen Zahl messen. Stattdessen greifen Unternehmen auf ein breites…

Aakash Gupta – AI & Product 30.01.2026 22:19

Forschung

HE-SNR: Entropie-basierte Messgröße für Mid-Training von LLMs bei SWE-Bench

Der neue Ansatz HE‑SNR (High‑Entropy Signal‑to‑Noise Ratio) verspricht, das bislang fehlende Messinstrument für die mittlere Trainingsphase…

arXiv – cs.LG 29.01.2026 05:00

Forschung

Boltzmann-GPT verbindet Energiebasierte Weltmodelle mit Sprachgenerierung

Ein neues Forschungsprojekt aus dem arXiv-Repository präsentiert Boltzmann-GPT, ein innovatives System, das die Stärken von Energie-basiert…

arXiv – cs.LG 27.01.2026 05:00

Forschung

Quantisierung für Llama-3.1-8B-Instruct: Einheitliche Bewertung von llama.cpp

Quantisierung ist ein bewährtes Verfahren, um große Sprachmodelle ressourcenschonender zu betreiben. Durch die Reduktion der Präzision der…

arXiv – cs.LG 22.01.2026 05:00

Forschung

<h1>Spurious Rewards Paradox: RLVR lässt LLMs auf Kurzschluss zurückgreifen</h1> <p>Reinforcement Learning with Verifiable Rewards (RLVR) gilt als leistungsstarkes Verfahren zur Verbesserung der Argumentationsfähigkeit großer Sprachmodelle. Neueste Untersuchungen zeigen jedoch, dass Modelle wie Qwen 2.5 erhebliche Leistungssteigerungen erzielen, selbst wenn die Belohnungen falsch oder irreführend sind.</p> <p>Die Autoren beschreiben ein „Perplexity Paradox“, bei dem die Perplexität der Antwort‑Tokens sinkt,

arXiv – cs.LG 19.01.2026 05:00

Forschung

Neue Hierarchische Sparse‑Plus‑Low‑Rank‑Kompression für große Sprachmodelle

Moderne große Sprachmodelle (LLMs) belasten Speicher und Rechenleistung in einem Ausmaß, das eine gezielte Kompression unverzichtbar macht…

arXiv – cs.LG 14.01.2026 05:00

Forschung

Sliced‑Wasserstein‑Loss verbessert Ultra‑Low‑Bit‑Quantisierung großer Sprachmodelle

Die Vorteile großer Sprachmodelle werden oft von hohen wirtschaftlichen und ökologischen Kosten überschattet. Durch Quantisierung können En…

arXiv – cs.LG 14.01.2026 05:00

Finde Modelle, Firmen und Themen

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Transformer-Keys verkleinern: Low-Dimensional Attention spart Speicher

Transformer-MLPs: Hälfte der Nichtlinearität verschwendet – spart Rechenleistung

Transformer-Modelle absorbieren Routing-Signale – Random Gates bleiben konkurrenzfähig

CoPeP: Benchmark für kontinuierliches Vortraining von Protein‑Sprachmodellen

GRAIL: Post-hoc Linear-Reconstruction kompensiert Kompression von Deep Networks

TradeFM: Generatives Modell für Handelsströme und Marktstruktur

Muon+ verbessert Muon-Optimierer durch zusätzliche Normalisierung

Gewichtsfelder ohne Interferenz: Verluste bei LLM‑Erweiterungen vermeiden

GrMoE: Neue Routing‑Methode für Mixture‑of‑Experts mit kontrollierter Sparsität

GeneZip: DNA-Kompression mit regionalem Fokus erreicht 137,6-fache Reduktion

LLM-Prompts: Code komprimiert besser als Mathematik – das Perplexity-Paradox erklärt

Sign Lock-In: Gewichtszeichen bleiben stabil – neue Theorie

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust

Hardware‑Co‑Design: Neue Skalierungsformeln für On‑Device LLMs

MoE-LLM-Kompression durch Routing-Frequenz und Informationsdichte

Attractor Patch Networks: Katastrophales Vergessen verhindern

Perplexität neu gedacht: Eingabelänge beeinflusst Bewertung von LLMs

Neues Phänomen: „Robert Boulton“-Singularität in rekursiver KI entdeckt

Benford-Quant: Logarithmisch angepasste Quantisierung steigert LLM-Leistung

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

ZK-HybridFL: Zero-Knowledge Proofs stärken dezentrale Federated Learning

Amazon Nova bewertet generative KI-Modelle als Schiedsrichter auf SageMaker

Erfolgskennzahlen für GPT‑6: Wie man KI‑Produkte richtig bewertet

HE-SNR: Entropie-basierte Messgröße für Mid-Training von LLMs bei SWE-Bench

Boltzmann-GPT verbindet Energiebasierte Weltmodelle mit Sprachgenerierung

Quantisierung für Llama-3.1-8B-Instruct: Einheitliche Bewertung von llama.cpp

Neue Hierarchische Sparse‑Plus‑Low‑Rank‑Kompression für große Sprachmodelle

Sliced‑Wasserstein‑Loss verbessert Ultra‑Low‑Bit‑Quantisierung großer Sprachmodelle

🍪 Cookie-Einstellungen

GHOST: Reduziert Mamba2‑Statusdimension um 50 % ohne großen Qualitätsverlust