Neues RL-Framework steigert Validität von SMILES-Generierung

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die Entwicklung zuverlässiger, gültiger und vielfältiger Moleküle ist ein zentrales Ziel der modernen Arzneimittelforschung. Durch die Verbesserung der molekularen Generierung können Forscher den chemischen Raum effizienter erkunden und die Kosten für die frühen Designphasen deutlich senken.

Aktuelle chemische Sprachmodelle, die Moleküle als SMILES-Strings erzeugen, leiden häufig unter kumulativen Tokenfehlern. Viele generierte Sequenzen sind nicht parsenbar oder chemisch unplausibel, und strenge Einschränkungen, die Fehler verhindern sollen, hemmen gleichzeitig die Exploration.

Um dieses Problem zu lösen, wurde TSSR – ein Two-Stage Swap-Reward-driven Reinforcement Learning-Framework – entwickelt. Im ersten Schritt belohnt das Modell lokale Token-Swaps, die Syntaxfehler korrigieren und die Übergänge von ungültigen zu parsebaren Strings fördern. Der zweite Schritt liefert chemiefreundliches Feedback aus RDKit-Diagnostiken und belohnt die Reduktion von Valenz-, Aromatik- und Konnektivitätsproblemen.

Die Belohnung lässt sich in interpretierbare Terme zerlegen (Swap-Effizienz, Fehlerreduktion, Distanz zur Validität), ist modellunabhängig und erfordert keine task-spezifischen Labels oder handgefertigten Grammatiken. Auf dem MOSES-Benchmark wurde TSSR mit einer GRU-Policy und PPO getestet, sowohl im reinen RL (P‑RL) von Grund auf als auch im Fine‑Tuning‑RL (F‑RL) ab einem vortrainierten chemischen Sprachmodell. Bei 10.000 generierten SMILES pro Durchlauf zeigte TSSR im P‑RL eine signifikante Steigerung der syntaktischen Validität, chemischen Validität und Neuheit. Im F‑RL bewahrte TSSR die Arzneimittelähnlichkeit und Synthesierbarkeit, während Validität und Neuheit weiter erhöht wurden.

Zusammenfassend demonstriert TSSR, dass ein zweistufiges, swap‑basierte Belohnungssystem die Qualität von SMILES-Generierungen nachhaltig verbessert, ohne die Vielfalt oder die pharmakologische Relevanz zu beeinträchtigen.

Ähnliche Artikel