Suche nach Quantisierung

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem C…

arXiv – cs.LG 06.03.2026 05:00

Praxis

PyTorch auf Mikro‑Edge: ExecuTorch und Arm bringen KI in die Hand

Die Künstliche Intelligenz verlässt zunehmend die Cloud und findet ihren Weg in Geräte, die in die Hand passen. Für Entwickler bedeutet das…

PyTorch – Blog 05.03.2026 15:55

Forschung

Neue Methode steigert Energiegewinn bei Sub-1-Bit-LLMs durch latente Geometrie

Forscher haben einen bahnbrechenden Ansatz entwickelt, um den Spektralen Energiegewinn in extrem komprimierten Sprachmodellen zu maximieren…

arXiv – cs.LG 03.03.2026 05:00

Forschung

BiKA: Ultra‑leichter KI‑Hardware‑Beschleuniger inspiriert von Kolmogorov‑Arnold‑Netzwerken

Für Edge‑Geräte, die nur begrenzte Ressourcen und Strom haben, sind leichte Neural‑Network‑Beschleuniger unverzichtbar. Traditionelle Ansät…

arXiv – cs.AI 02.03.2026 05:00

Forschung

AutoQRA: Optimale Quantisierung & LoRA für effizientes LLM‑Fine‑Tuning

In der Welt der großen Sprachmodelle (LLMs) ist die Kombination aus Quantisierung und parameter‑effizientem Feintuning zu einem vielverspre…

arXiv – cs.LG 27.02.2026 05:00

Forschung

AngelSlim: Kompakteres, umfassenderes und effizienteres Toolkit für große Modelle

Das neue Toolkit AngelSlim, entwickelt vom Tencent Hunyuan Team, bietet eine umfassende Lösung zur Kompression großer KI‑Modelle. Durch die…

arXiv – cs.AI 26.02.2026 05:00

Forschung

MoBiQuant: Token-angepasste, elastische Quantisierung für LLMs

Die Anforderungen an die Laufzeitkomplexität von Sprachmodellen variieren stark zwischen Cloud- und Edge-Geräten. Deshalb wird immer häufig…

arXiv – cs.LG 25.02.2026 05:00

Forschung

QuantVLA: Post-Training Quantisierung für Vision‑Language‑Action‑Modelle

QuantVLA ist ein neu entwickeltes, trainingsfreies Post‑Training‑Quantisierungsframework, das speziell für Vision‑Language‑Action‑Modelle (…

arXiv – cs.LG 25.02.2026 05:00

Forschung

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Die Post‑Training‑Quantisierung (PTQ) bleibt ein zentraler Ansatz, um die Speicher‑ und Rechenkosten großer Sprachmodelle drastisch zu senk…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

Post‑Training‑Quantisierung (PTQ) ist ein entscheidender Schritt für die effiziente Bereitstellung von KI‑Modellen. Auf der Ascend NPU, ein…

arXiv – cs.AI 23.02.2026 05:00

Forschung

PCA-VAE: Differenzierbare Subspace-Quantisierung ohne Codebook-Kollaps

Eine neue Methode namens PCA-VAE ersetzt die herkömmliche Vektor‑Quantisierung in Autoencodern durch einen vollständig differenzierbaren An…

arXiv – cs.LG 24.02.2026 05:00

Forschung

ScaleBITS: Bitbreitenanpassung für effiziente, hardwarefreundliche LLMs

ScaleBITS ist ein neues Quantifizierungsframework, das die Nachtrainingsgewichtsanpassung von großen Sprachmodellen (LLMs) optimiert. Ziel…

arXiv – cs.AI 23.02.2026 05:00

Forschung

EdgeNav‑QE: 4‑Bit‑Quantisierung & dynamischer Early Exit für LAM‑Navigation auf Edge

Mit dem neuen Framework EdgeNav‑QE gelingt es, große Aktionsmodelle (LAMs) – die komplexe Entscheidungen mit präziser Steuerung verbinden –…

arXiv – cs.AI 19.02.2026 05:00

Forschung

COMPOT: Trainingfreie Kompression von Transformers mit Procrustes‑Optimierung

In der Praxis wird die Kompression von Transformer‑Modellen häufig mit einer abgeschnittenen Singulärwertzerlegung (SVD) durchgeführt. Dies…

arXiv – cs.LG 18.02.2026 05:00

Forschung

<h1>1-Bit Wunder: K-Means Quantisierung steigert QAT-Leistung bei LLMs</h1> <p>Eine neue Studie aus dem arXiv-Repository zeigt, dass Quantization‑Aware Training (QAT) die Speicher‑ und Rechenkosten von großen Sprachmodellen drastisch senken kann, ohne die Leistung zu stark zu beeinträchtigen. Durch gezielte Experimente im Low‑Bit‑Bereich wird deutlich, wie sich unterschiedliche Quantisierungsformate auf die Effizienz und Genauigkeit auswirken.</p> <p>Traditionell bleibt die Wahl des optimalen Quantisierungs

arXiv – cs.LG 18.02.2026 05:00

Forschung

S-PRESSO: Ultra‑niedrige Bitrate-Kompression für Soundeffekte

Ein neues Modell namens S‑PRESSO ermöglicht die Kompression von Soundeffekten in 48 kHz bei extrem niedrigen Bitraten – sogar bis zu 0,096…

arXiv – cs.AI 18.02.2026 05:00

Forschung

Statistische Fehlergrenzen für quantisierte Dynamikmodelle

Ein neues arXiv‑Veröffentlichung (2602.15586v1) liefert robuste statistische Garantien für die Genauigkeit von Dynamikmodellen, die aus abh…

arXiv – cs.LG 18.02.2026 05:00

Forschung

Quantisierungskonflikt: Weniger Bits kosten mehr Energie

Ein neuer Beitrag auf arXiv zeigt, dass die weit verbreitete Annahme, dass geringere Präzision immer zu mehr Effizienz führt, bei komplexen…

arXiv – cs.AI 17.02.2026 05:00

Forschung

SLA2: Dynamische Sparse-Linear Attention beschleunigt Video‑Diffusion um 18,6×

Die neueste Variante des Sparse‑Linear Attention (SLA) – SLA2 – verspricht eine deutliche Beschleunigung von Video‑Diffusionsmodellen, ohne…

arXiv – cs.LG 16.02.2026 05:00

Forschung

KBVQ-MoE: Ultra‑niedrigbit‑Quantisierung für Mixture‑of‑Experts‑LLMs

Die neueste Veröffentlichung von Forschern auf arXiv (2602.11184v1) präsentiert KBVQ‑MoE, ein innovatives Verfahren zur Ultra‑niedrigbit‑Qu…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Hi‑SAM: Hierarchisches multimodales System steigert Kaltstart‑Performance

Das neue Framework Hi‑SAM löst zwei zentrale Probleme der multimodalen Empfehlung: die ineffiziente Tokenisierung von Text‑ und Bilddaten s…

arXiv – cs.AI 13.02.2026 05:00

Forschung

QTALE: Token‑basierte Layer-Ausführung kombiniert mit Quantisierung – Effiziente LLMs

Große Sprachmodelle (LLMs) erfordern enorme Rechen- und Speicherressourcen, was ihre effiziente Nutzung erschwert. Zwei vielversprechende A…

arXiv – cs.LG 12.02.2026 05:00

Forschung

Statistisches Verfahren erkennt Qualitätsverlust bei Sprachmodellen

In der aktuellen Forschung zur Optimierung von Foundation‑Modellen stehen die Reduzierung von Inferenzkosten und Latenz im Vordergrund. Dab…

arXiv – cs.AI 12.02.2026 05:00

Forschung

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

Die Kompression großer Sprachmodelle (LLMs) wird immer wichtiger, wenn es darum geht, sie in produktiven Systemen einzusetzen. Bisherige St…

arXiv – cs.LG 11.02.2026 05:00

Forschung

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Die Ausführung von Vision‑Language‑Modellen (VLMs) auf Edge‑Geräten ist durch begrenzte Rechenleistung und Speicher sowie durch Leistungsei…

arXiv – cs.AI 10.02.2026 05:00

Forschung

Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations

Die Trainingszeit großer Sprachmodelle wird häufig durch die vielen Matrixmultiplikationen im Transformer begrenzt. Besonders im Feed‑Forwa…

arXiv – cs.LG 09.02.2026 05:00

Forschung

<h1>HQP: Hybrid-Quantisierung & Pruning für Ultra‑Low‑Latency Edge AI</h1> <p>Die steigende Nachfrage nach hochpräziser, Echtzeit‑Inference in verteilten Edge‑Cloud‑Umgebungen zwingt Entwickler zu aggressiven Optimierungen, um die strengen Latenz‑ und Energiegrenzen zu überwinden. In diesem Kontext präsentiert der neue HQP‑Framework einen integrierten Ansatz, der Hybrid‑Quantisierung und strukturiertes Pruning kombiniert, um Modelle gleichzeitig zu beschleunigen und Qualitätsstandards einzuhalten.</p> <p>De

arXiv – cs.AI 09.02.2026 05:00

Forschung

Neue Flow‑Matching‑Methode für Offline‑RL mit diskreten Aktionen

Forscher haben Flow Matching auf diskrete Aktionsräume ausgeweitet, um Offline‑Reinforcement‑Learning in breiteren Szenarien zu ermöglichen…

arXiv – cs.LG 09.02.2026 05:00

Forschung

TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation

Mit TurboBoA wird die Quantisierung großer Sprachmodelle schneller und genauer, ohne dass Backpropagation nötig ist. Der neue Ansatz kombin…

arXiv – cs.LG 06.02.2026 05:00

Forschung

RaBiT: Residual-Aware Binarization Training für präzise und effiziente LLMs

Die effiziente Nutzung großer Sprachmodelle erfordert eine extreme Quantisierung, die oft einen harten Kompromiss zwischen Bit‑Effizienz un…

arXiv – cs.AI 06.02.2026 05:00

Finde Modelle, Firmen und Themen

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

PyTorch auf Mikro‑Edge: ExecuTorch und Arm bringen KI in die Hand

Neue Methode steigert Energiegewinn bei Sub-1-Bit-LLMs durch latente Geometrie

BiKA: Ultra‑leichter KI‑Hardware‑Beschleuniger inspiriert von Kolmogorov‑Arnold‑Netzwerken

AutoQRA: Optimale Quantisierung & LoRA für effizientes LLM‑Fine‑Tuning

AngelSlim: Kompakteres, umfassenderes und effizienteres Toolkit für große Modelle

MoBiQuant: Token-angepasste, elastische Quantisierung für LLMs

QuantVLA: Post-Training Quantisierung für Vision‑Language‑Action‑Modelle

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

PCA-VAE: Differenzierbare Subspace-Quantisierung ohne Codebook-Kollaps

ScaleBITS: Bitbreitenanpassung für effiziente, hardwarefreundliche LLMs

EdgeNav‑QE: 4‑Bit‑Quantisierung & dynamischer Early Exit für LAM‑Navigation auf Edge

COMPOT: Trainingfreie Kompression von Transformers mit Procrustes‑Optimierung

S-PRESSO: Ultra‑niedrige Bitrate-Kompression für Soundeffekte

Statistische Fehlergrenzen für quantisierte Dynamikmodelle

Quantisierungskonflikt: Weniger Bits kosten mehr Energie

SLA2: Dynamische Sparse-Linear Attention beschleunigt Video‑Diffusion um 18,6×

KBVQ-MoE: Ultra‑niedrigbit‑Quantisierung für Mixture‑of‑Experts‑LLMs

Hi‑SAM: Hierarchisches multimodales System steigert Kaltstart‑Performance

QTALE: Token‑basierte Layer-Ausführung kombiniert mit Quantisierung – Effiziente LLMs

Statistisches Verfahren erkennt Qualitätsverlust bei Sprachmodellen

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

LQA: Leichtgewichtiges quantisiertes Framework für Vision‑Language‑Modelle Edge

Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations

Neue Flow‑Matching‑Methode für Offline‑RL mit diskreten Aktionen

TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation

RaBiT: Residual-Aware Binarization Training für präzise und effiziente LLMs

🍪 Cookie-Einstellungen