Suche nach Kompressionstechniken

Neue Test‑Time‑Quantisierung beschleunigt LLM‑Inference ohne Retraining

Die enorme Rechenlast großer Basismodelle hat die Forschung zu neuen Kompressionstechniken angetrieben. Dabei setzen aktuelle Methoden auf…

arXiv – cs.LG 23.03.2026 04:00

Forschung

LightMoE: Reduzierung von MoE-Redundanz durch Expertenersatz

Die neueste Veröffentlichung von LightMoE präsentiert einen innovativen Ansatz, um die Speicherbelastung von Mixture-of-Experts (MoE) basie…

arXiv – cs.LG 16.03.2026 04:00

Forschung

SideQuest: KV-Cache-Management für langfristige agentische Aufgaben

Ein neues Verfahren namens SideQuest wurde vorgestellt, das die Effizienz von KI-Agenten bei langwierigen Aufgaben deutlich verbessert. Bei…

arXiv – cs.AI 27.02.2026 05:00

Forschung

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

Die Kompression großer Sprachmodelle (LLMs) wird immer wichtiger, wenn es darum geht, sie in produktiven Systemen einzusetzen. Bisherige St…

arXiv – cs.LG 11.02.2026 05:00

Forschung

Sparse‑RL: Speicherprobleme bei LLM‑Reinforcement Learning überwinden

Reinforcement Learning (RL) hat sich als unverzichtbares Werkzeug etabliert, um komplexe Denkfähigkeiten in großen Sprachmodellen (LLMs) zu…

arXiv – cs.LG 16.01.2026 05:00

Forschung

LLRC: Gradient-basierte Low‑Rank-Kompression ohne Feinabstimmung

In der Forschung zu Sprachmodellen hat die Low‑Rank-Kompression dank neuer Techniken wie aktivitäts- und verlustbewusster SVD große Fortsch…

arXiv – cs.LG 17.12.2025 05:00

Forschung

AgentProg: Programmgestützte Kontextverwaltung für langfristige GUI-Agenten

In einer jüngsten Veröffentlichung auf arXiv (2512.10371v1) stellen die Autoren AgentProg vor, ein neues Verfahren zur Verwaltung des Konte…

arXiv – cs.AI 12.12.2025 05:00

Forschung

Optimale Reihenfolge von Kompressionstechniken für große Sprachmodelle

Ein neues arXiv‑Veröffentlichung beleuchtet, wie die Reihenfolge von Kompressionstechniken die Leistung von großen Sprachmodellen beeinflus…

arXiv – cs.LG 26.11.2025 05:00

Praxis

OpenAI präsentiert GPT‑5.1‑Codex‑Max: Agentisches Coding für Millionen Tokens

OpenAI hat heute das neue Modell GPT‑5.1‑Codex‑Max vorgestellt, das speziell für langwierige Software‑Engineering‑Aufgaben entwickelt wurde…

MarkTechPost 20.11.2025 03:55

Forschung

TabPFN v2: Mit Chunked-TabPFN Längere Tabellendaten ohne Vorverarbeitung meistern

Die neueste Version von TabPFN, genannt v2, übertrifft herkömmliche baumbasierte Modelle bei mehreren tabellarischen Benchmarks – ein bemer…

arXiv – cs.LG 03.09.2025 05:00

Forschung

CALR: Adaptive Low‑Rank‑Kompression für effiziente LLM‑Layer

Large Language Models (LLMs) sind wegen ihrer enormen Größe und Rechenintensität schwer in ressourcenbeschränkten Umgebungen einsetzbar. Um…

arXiv – cs.LG 26.08.2025 05:00

Finde Modelle, Firmen und Themen

Neue Test‑Time‑Quantisierung beschleunigt LLM‑Inference ohne Retraining

LightMoE: Reduzierung von MoE-Redundanz durch Expertenersatz

SideQuest: KV-Cache-Management für langfristige agentische Aufgaben

UniComp: Bewertung von LLM-Kompression mit Pruning, Quantisierung & Distillation

Sparse‑RL: Speicherprobleme bei LLM‑Reinforcement Learning überwinden

LLRC: Gradient-basierte Low‑Rank-Kompression ohne Feinabstimmung

AgentProg: Programmgestützte Kontextverwaltung für langfristige GUI-Agenten

Optimale Reihenfolge von Kompressionstechniken für große Sprachmodelle

OpenAI präsentiert GPT‑5.1‑Codex‑Max: Agentisches Coding für Millionen Tokens

TabPFN v2: Mit Chunked-TabPFN Längere Tabellendaten ohne Vorverarbeitung meistern

CALR: Adaptive Low‑Rank‑Kompression für effiziente LLM‑Layer

🍪 Cookie-Einstellungen