Neuer Ansatz: Molekulare Sequenzklassifikation via topologische Bilddarstellung
Traditionelle Feature‑Engineering‑Methoden für die Klassifikation molekularer Sequenzen leiden häufig unter Sparsity‑Problemen und hoher Rechenkomplexität. Gleichzeitig schneiden tiefe Lernmodelle bei tabellarischen biologischen Daten oft schlechter ab als erwartet. Um diese Herausforderungen zu überwinden, präsentiert die aktuelle Studie einen völlig neuen topologischen Ansatz, der Molekülsequenzen in Bildform überführt.
Der Kern des Verfahrens kombiniert die Chaos‑Game‑Representation (CGR) mit der Rips‑Komplex‑Konstruktion aus der algebraischen Topologie. Zunächst werden Sequenzelemente mithilfe von CGR in zweidimensionale Koordinaten abgebildet. Anschließend werden die paarweisen Abstände berechnet und ein Rips‑Komplex aufgebaut, der sowohl lokale Strukturen als auch globale topologische Merkmale erfasst. Die Autoren liefern formale Garantien für die Eindeutigkeit der Darstellung, die topologische Stabilität und die Informationsintegrität.
In umfangreichen Experimenten auf Antikrebs‑Peptid‑Datensätzen übertraf die Methode bestehende Vektor‑, Sprach‑ und Bild‑basierte Ansätze deutlich. Die Genauigkeit erreichte 86,8 % bei Brustkrebs‑ und 94,5 % bei Lungenkrebs‑Datensätzen. Durch die topologische Bilddarstellung werden entscheidende Sequenzinformationen erhalten und gleichzeitig die Leistungsfähigkeit von vision‑basierten Deep‑Learning‑Architekturen für die molekulare Analyse genutzt.