SeleCom: Query-Conditioned Soft Compression für Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt. Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe di…
- Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt.
- Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe die Rechenleistung stark belasten.
- Eine vielversprechende Lösung ist die „soft“ Kompression von Kontexten, bei der lange Dokumente in kompakte Einbettungen umgewandelt werden.
Retrieval-Augmented Generation (RAG) verbindet große Sprachmodelle mit externem Wissen und ist besonders bei Web-basierten Aufgaben beliebt. Doch die Skalierbarkeit leidet, weil lange Kontexte und überflüssige Abrufe die Rechenleistung stark belasten.
Eine vielversprechende Lösung ist die „soft“ Kompression von Kontexten, bei der lange Dokumente in kompakte Einbettungen umgewandelt werden. In der Praxis schneiden diese Ansätze jedoch schlechter ab als unkomprimierte RAG-Modelle, weil die Encoder gezwungen sind, sämtliche Informationen zu komprimieren – unabhängig davon, ob sie für die aktuelle Anfrage relevant sind.
Die Autoren identifizieren zwei zentrale Schwächen: Erstens ist die vollständige Kompression mit dem generativen Verhalten von LLMs unvereinbar, und zweitens ist sie unnötig, da sie die Dichte relevanter Informationen verwässert.
Auf Basis dieser Erkenntnisse stellen sie SeleCom vor – ein Soft‑Compression‑Framework, das den Encoder neu definiert als einen auf die Anfrage konditionierten Informationsselektor. Der Selektor ist ausschließlich decoder‑basiert und wird mit einem umfangreichen, diversifizierten und nach Schwierigkeitsgrad gestuften synthetischen QA‑Datensatz unter Einsatz von Curriculum Learning trainiert.
Umfangreiche Experimente zeigen, dass SeleCom bestehende Soft‑Compression‑Methoden deutlich übertrifft, gleichwertig oder besser als unkomprimierte Baselines abschneidet und gleichzeitig die Rechenzeit sowie die Latenz um 33,8 % bis 84,6 % reduziert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.