ChemBERTa optimiert: KI vorhersagt TDP1-Inhibitoren mit hoher Genauigkeit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einem wegweisenden Beitrag zur frühen Wirkstoffentwicklung präsentiert ein internationales Forschungsteam ein Deep‑Learning‑Framework, das die hemmende Aktivität von kleinen Molekülen gegen Tyrosyl‑DNA‑Phosphodiesterase 1 (TDP1) präzise vorhersagen kann. TDP1 ist ein entscheidendes Ziel, um die Chemoresistenz von Tumoren zu überwinden, und die genaue Abschätzung von pIC50‑Werten ist bislang eine große Herausforderung.

Das Modell basiert auf ChemBERTa, einem vortrainierten chemischen Sprachmodell, das hier feinjustiert wurde. Für die Feinabstimmung wurden zwei Strategien untersucht: Masked Language Modeling (MLM) und Masked Token Regression (MTR). Mit einem konsensbasierten Datensatz von 177 092 Verbindungen, von denen lediglich 2,1 % aktiv sind, wurden die Daten in stratifizierte Splits aufgeteilt und mittels Sample‑Weighting ausgeglichen, um die starke Aktivitätsungleichheit zu kompensieren.

Die Ergebnisse sind beeindruckend: Im Vergleich zum Random‑Predictor übertrifft das Modell sowohl die Regressionsgenauigkeit als auch die Wirksamkeit bei virtuellen Screenings. Im Vergleich zu Random‑Forest‑Modellen erzielt es einen Enrichment‑Faktor EF@1 % von 17,4 und eine Präzision Precision@1 % von 37,4 bei den Top‑Ranked Vorhersagen. Umfangreiche Ablations- und Hyperparameter‑Studien bestätigen die Robustheit des Ansatzes.

Das daraus resultierende Tool ist sofort einsatzbereit und ermöglicht die Priorisierung potenzieller TDP1‑Inhibitoren ohne 3D‑Strukturinformationen. Diese Arbeit unterstreicht das transformative Potenzial chemischer Transformer‑Modelle, um die zielgerichtete Wirkstoffentwicklung zu beschleunigen und die Entwicklung neuer Antikrebsmittel voranzutreiben.

Ähnliche Artikel