AssayMatch: Datenwahl für bessere Wirkstoffmodelle

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die Genauigkeit von Machine‑Learning‑Modellen in der Wirkstoffforschung hängt stark von der Qualität und Konsistenz der Trainingsdaten ab. Da die verfügbaren Datensätze oft zu klein sind, werden viele Modelle durch die Zusammenführung von Bioaktivitätsdaten aus unterschiedlichen Quellen – etwa aus öffentlichen Datenbanken wie ChEMBL – trainiert. Diese Vorgehensweise führt jedoch häufig zu starkem Rauschen, weil experimentelle Protokolle variieren.

Mit dem neuen Ansatz AssayMatch wird ein Framework vorgestellt, das kleinere, homogenere Trainingssets erstellt, die speziell auf das zu testende Set abgestimmt sind. Dabei nutzt AssayMatch Datenattributionsmethoden, um den Beitrag jedes Trainingsassays zur Modellleistung zu quantifizieren. Die daraus gewonnenen Attributionswerte dienen dazu, Sprach‑Embeddings von textbasierten Assay‑Beschreibungen feinzujustieren. So werden nicht nur semantische Ähnlichkeiten erfasst, sondern auch die Kompatibilität zwischen Assays.

Im Gegensatz zu bisherigen Attributionsansätzen ermöglicht AssayMatch die Auswahl von Trainingsdaten für ein Testset, dessen Labels noch unbekannt sind – ein Szenario, das reale Wirkstoffentwicklungsprojekte widerspiegelt, bei denen die Aktivitäten der Kandidatenmoleküle erst später bestimmt werden. Während des Tests werden die feinjustierten Embeddings verwendet, um alle verfügbaren Trainingsdaten zu ranken.

In Experimenten mit zwei gängigen Machine‑Learning‑Architekturen zeigte sich, dass Modelle, die mit den von AssayMatch ausgewählten Daten trainiert wurden, die Leistung von Modellen übertrafen, die auf dem vollständigen Datensatz basierten. Damit demonstriert die Methode, wie schädliche oder verrauschte Experimente effektiv herausgefiltert werden können, und verbessert die Vorhersagekraft gegenüber starken sprachbasierten Baselines.

Ähnliche Artikel