Forschung arXiv – cs.AI

SeleCom: Query-Conditioned Soft Compression für Retrieval-Augmented Generation

Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt. Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe di…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt.
  • Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe die Rechenleistung stark belasten.
  • Eine vielversprechende Lösung ist die „soft“ Kompression von Kontexten, bei der lange Dokumente in kompakte Einbettungen umgewandelt werden.

Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt. Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe die Rechenleistung stark belasten.

Eine vielversprechende Lösung ist die „soft“ Kompression von Kontexten, bei der lange Dokumente in kompakte Einbettungen umgewandelt werden. In der Praxis schneiden diese Ansätze jedoch schlechter ab als unkomprimierte RAG-Modelle, weil die Encoder gezwungen sind, sämtliche Informationen zu komprimieren – unabhängig davon, ob sie für die aktuelle Anfrage relevant sind.

Die Autoren identifizieren zwei zentrale Schwächen: Erstens ist die vollständige Kompression mit dem generativen Verhalten von LLMs unvereinbar, und zweitens ist sie unnötig, da sie die Dichte relevanter Informationen verwässert.

Auf Basis dieser Erkenntnisse stellen sie SeleCom vor – ein Soft‑Compression‑Framework, das den Encoder neu definiert als einen auf die Anfrage konditionierten Informationsselektor. Der Selektor ist ausschließlich decoder‑basiert und wird mit einem umfangreichen, diversifizierten und nach Schwierigkeitsgrad gestuften synthetischen QA‑Datensatz unter Einsatz von Curriculum Learning trainiert.

Umfangreiche Experimente zeigen, dass SeleCom bestehende Soft‑Compression‑Methoden deutlich übertrifft, gleichwertig oder besser als unkomprimierte Baselines abschneidet und gleichzeitig die Rechenzeit sowie die Latenz um 33,8 % bis 84,6 % reduziert.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.