Neues Verfahren steigert verlustfreie Textkompression ohne Feinabstimmung
In einer Zeit, in der Datenmengen exponentiell wachsen, wird verlustfreie Kompression immer wichtiger. Klassische Universalkompressoren wie gzip sind schnell und ressourcenschonend, erzielen jedoch oft schlechtere Kompressionsraten als moderne neuronale Modelle, die große Trainingsdatensätze nutzen, um Datenverteilungen genauer zu erfassen.
Neuronale Kompressoren bieten zwar höhere Effizienz, kämpfen jedoch mit der Generalisierung auf unbekannte Daten. Um dieses Problem zu lösen, wurde ein innovatives Konzept namens Test‑Time Steering via Weighted Product of Experts (wPoE) entwickelt. Während der Inferenz kombiniert das Verfahren dynamisch einen Universalkompressor mit einem vortrainierten neuronalen Sprachmodell, sodass die Kompressionsrate niemals schlechter als die der besten Einzelkomponente wird.
Umfangreiche Experimente zeigen, dass wPoE die Textkompression verbessert, ohne dass ein Feintuning erforderlich ist. Das Verfahren lässt sich nahtlos in jedes autoregressive Sprachmodell integrieren und bietet damit eine praktische Lösung, um die Kompressionseffizienz über verschiedenartige Datenverteilungen hinweg zu steigern.