Neuer, nichtparametrischer Test entdeckt genetische Zusammenhänge bei Sequenzdaten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem Aufkommen der zweiten Generation von Sequenzierungstechnologien wird die genetische Assoziationsforschung immer stärker auf die Analyse von Genotypen und komplexen Phänotypen ausgerichtet. Dabei gilt es, Sets von Genvarianten zu identifizieren, die zu unterschiedlichen Merkmalen beitragen – sei es ein einzelnes Krankheitszeichen, mehrere abhängige Antworten oder hochdimensionale Daten.

Um die Beziehung zwischen diesen komplexen Objekten zu prüfen, wurde der nichtparametrische, similarity-basierte Test Generalized Similarity U (GSU) entwickelt. Der Test nutzt die Ähnlichkeit der Datenobjekte, um eine Assoziation zu bestimmen, ohne auf klassische Parametermodelle angewiesen zu sein.

Zunächst wurden die theoretischen Eigenschaften von GSU in einem allgemeinen Rahmen untersucht. Anschließend wurde der Ansatz speziell auf Sequenzierungsstudien zugeschnitten. Durch die Verwendung eines Laplacian-Kernels zur Berechnung der Ähnlichkeit konnte die Teststärke erhöht und die Robustheit gegenüber Ausreißern verbessert werden.

Simulationen zeigten, dass GSU gegenüber bestehenden Methoden sowohl in der Power als auch in der Robustheit Vorteile bietet. In einer praktischen Anwendung wurde GSU auf eine Whole-Genome-Sequenzierung (WGS) des Alzheimer Disease Neuroimaging Initiative (ADNI)-Datensatzes angewendet. Dabei wurden drei Gene – APOE, APOC1 und TOMM40 – als signifikant mit bildgebenden Phänotypen assoziiert identifiziert.

Zur Förderung der breiten Anwendung wurde ein C++-Paket entwickelt, das die Analyse von Whole-Genome-Sequenzierungsdaten mit GSU ermöglicht. Der Quellcode steht unter GitHub zur Verfügung.

Ähnliche Artikel