Neuer Ansatz: Vektorquantisierung via Gaussian VAE ohne Training

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens Gaussian Quant (GQ) ermöglicht es, einen klassischen Gaussian Variational Autoencoder (VAE) in einen Vektorquantisierungs‑Autoencoder (VQ‑VAE) zu verwandeln – und das ohne aufwändiges Training. Dabei wird ein Codebuch aus zufälligem Gaussian‑Rauschen erzeugt und das Rauschen, das dem posterior‑Mittelwert am nächsten liegt, als Diskretisierungscode verwendet.

Die Autoren zeigen theoretisch, dass bei einer Codebuchgröße, deren Logarithmus die Bits‑Back‑Codierungsrate des Gaussian VAE übersteigt, die Quantisierungsfehler minimal bleiben. Praktisch wird ein Heuristik‑Ansatz namens Target Divergence Constraint (TDC) vorgestellt, der das Training des Gaussian VAE so steuert, dass GQ optimal funktioniert.

In Experimenten übertrifft GQ bisherige VQ‑VAE‑Modelle wie VQGAN, FSQ, LFQ und BSQ sowohl bei UNet‑ als auch bei ViT‑Architekturen. Zusätzlich verbessert TDC die Diskretisierungsmethoden für Gaussian VAE, etwa TokenBridge. Der komplette Code ist auf GitHub verfügbar.

Ähnliche Artikel