CROT: Schnellere Imputation fehlender Patch‑Daten in Einzelzell‑Daten
In der Analyse von Einzelzellsequenzen stellen fehlende Daten ein zentrales Hindernis dar. Traditionelle Imputationsmethoden gehen häufig von einer gleichmäßigen Datenverteilung aus und können große, zusammenhängende Datenlücken nicht zuverlässig schließen. Das neue Verfahren CROT (Cluster‑regularized Optimal Transport) löst dieses Problem, indem es die strukturelle Zusammenhänge in den Daten nutzt und fehlende Patch‑Regionen gezielt interpoliert.
CROT basiert auf dem Prinzip des optimalen Transports, erweitert um eine Cluster‑Regulierung, die die biologischen Subpopulationen innerhalb der Daten berücksichtigt. Durch diese Kombination wird die zugrunde liegende Datenstruktur selbst bei starkem Missingness exakt erfasst. Das Ergebnis ist eine Imputation, die nicht nur präziser, sondern auch deutlich schneller als bestehende Ansätze ausgeführt wird.
In umfangreichen Tests zeigte CROT eine überlegene Genauigkeit und reduzierte die Laufzeit um mehr als die Hälfte, was die Skalierbarkeit auf große Datensätze deutlich verbessert. Damit bietet das Verfahren eine robuste Lösung für heterogene, hochdimensionale Datensätze, die in der biologischen und klinischen Forschung immer häufiger auftreten.
Der Quellcode von CROT ist frei verfügbar und kann unter dem GitHub‑Repository „Anomalous“ bezogen werden. Forscherinnen und Forscher können damit sofort von einer effizienten und zuverlässigen Imputation profitieren, die die Analyse von Einzelzellsequenzen auf ein neues Niveau hebt.