Murmur2Vec: Schnellere Embedding-Generierung für COVID-19-Spike-Sequenzen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die frühzeitige Erkennung und Analyse von SARS‑CoV‑2‑Varianten bleibt entscheidend für die klinische Versorgung und die öffentliche Gesundheit. Dank der weltweiten Verfügbarkeit von Millionen von Virussequenzen eröffnet sich ein enormes Potential für computergestützte Untersuchungen, doch bisherige Ansätze stoßen an ihre Grenzen.

Phylogenetische Baummethoden sind rechenintensiv und skalieren nicht effizient mit den heutigen Datensätzen. Auch aktuelle Embedding‑Techniken basieren häufig auf ausgerichteten Sequenzen oder erfordern hohe Laufzeiten, was die praktische Anwendung in großem Maßstab erschwert.

In der neuen Studie wird Murmur2Vec vorgestellt, ein skalierbares Embedding‑Verfahren, das Hashing nutzt, um kompakte, niedrigdimensionale Repräsentationen von Spike‑Protein‑Sequenzen zu erzeugen. Diese Embeddings dienen anschließend als Eingabe für verschiedene maschinelle Lernmodelle zur Klassifizierung von Viruslinien.

Die umfangreiche Evaluation zeigt, dass Murmur2Vec die Effizienz deutlich steigert: Die Klassifikationsgenauigkeit erreicht bis zu 86,4 % und die Generierungszeit der Embeddings wird um bis zu 99,81 % reduziert. Damit bietet die Methode eine schnelle, effektive und skalierbare Lösung für die Analyse großer Virussequenzsammlungen.

Ähnliche Artikel