Rigidity‑Aware Geometrisches Pretraining für Protein‑Design und Ensembles

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens RigidSSL (Rigidity‑Aware Self‑Supervised Learning) verspricht, die Grenzen aktueller generativer Protein‑Design‑Modelle zu überwinden. Durch gezieltes Vor‑Training der geometrischen Eigenschaften von Proteinen wird die Fähigkeit, neue Strukturen zu erzeugen, signifikant gesteigert.

Derzeit können bestehende Modelle weder Geometrie als Ganzes lernen, noch nutzen sie lokale, nicht‑rigide atomare Darstellungen für die nachgelagerten Aufgaben. Außerdem fehlt ihnen ein effektiver Mechanismus, um die dynamischen und konformationellen Nuancen natürlicher Proteinstrukturen abzubilden. RigidSSL adressiert diese Schwächen, indem es die Geometrie in zwei aufeinanderfolgenden Phasen erlernt.

In Phase I, RigidSSL‑Perturb, werden 432 000 Strukturen aus der AlphaFold‑Datenbank mit simulierten Störungen versehen, um robuste geometrische Priors zu extrahieren. Phase II, RigidSSL‑MD, nutzt 1 300 Molekulardynamik‑Trajektorien, um die Modelle auf physikalisch realistische Übergänge zu verfeinern. Beide Phasen beruhen auf einem bidirektionalen, rigiden Fluss‑Matching‑Ziel, das translationalen und rotationalen Bewegungen gleichzeitig Rechnung trägt und so die gegenseitige Information zwischen Konformationen maximiert.

Experimentelle Ergebnisse zeigen, dass RigidSSL‑Varianten die Designfähigkeit um bis zu 43 % steigern und gleichzeitig die Neuheit sowie die Vielfalt der generierten Proteine erhöhen. Zudem verbessert RigidSSL‑Perturb die Erfolgsquote bei Zero‑Shot‑Molekül‑Design‑Aufgaben um 5,8 %. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung realistischer, dynamischer Protein‑Generierung und eröffnen neue Möglichkeiten für die biomedizinische Forschung.