SCONE: Plug‑In für effiziente DNA‑Speicherung mit lernbasierten Latenten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die DNA‑Speicherung hat sich vom Konzept zum praktischen Einsatz entwickelt, doch die Verbindung zu neuronalen Kompressionspipelines bleibt ineffizient. Frühere DNA‑Encoder setzten auf stark redundante Schichten, die auf rohe Binärdaten angewiesen waren – funktional, aber rudimentär.

Neuerartige neuronale Codecs komprimieren Daten in lernte latente Repräsentationen mit reichhaltiger statistischer Struktur. Sie wandeln diese Latente jedoch noch immer in DNA um, indem sie eine naive Binär‑zu‑Quartär‑Transkodierung nutzen und dabei das Optimierungspotential des Entropiemodells vernachlässigen. Dieses Missverhältnis verringert die Kompressionseffizienz und erschwert die Encoding‑Stapel.

SCONE löst das Problem, indem es die latente Kompression und die DNA‑Kodierung in einem einzigen Schritt zusammenführt. Das Plug‑In führt quaternäre arithmetische Codierung direkt im latenten Raum aus und steuert dabei die erlernte Wahrscheinlichkeitsverteilung dynamisch, um biochemische Einschränkungen – GC‑Balance und Homopolymer‑Unterdrückung – deterministisch während der Kodierung einzuhalten. Dadurch entfällt die nachträgliche Korrektur, die Reversibilität bleibt erhalten und die Hyperprior‑Modelle können ohne Änderungen genutzt werden.

Experimentelle Ergebnisse zeigen, dass SCONE nahezu perfekte Einhaltung der Constraints erreicht, während die Rechenzeit um weniger als 2 % steigt. Damit bietet es eine latente‑agnostische Schnittstelle für end‑to‑end DNA‑kompatible lernbasierte Codecs und setzt einen neuen Standard für effiziente DNA‑Speicherung.

Ähnliche Artikel