ChemProt & DrugProt vereint: Fortschritt bei Relationsextraktion
Ein neues arXiv‑Paper präsentiert die erfolgreiche Zusammenführung der ChemProt‑ und DrugProt‑Datensätze, um die Erkennung chemisch‑genetischer Beziehungen aus biomedizinischer Literatur zu verbessern. Durch die Kombination beider Quellen werden die Stichprobengrößen deutlich erhöht, was die Trainingsdatenbasis für relationale Extraktionsmodelle stärkt.
Die chemisch‑gene‑Relationen sind entscheidend für das Verständnis von Wirkstoff‑Ziel‑Interaktionen, Krankheitsmechanismen und der Entwicklung neuer Medikamente. Mit einer erweiterten Datenmenge können Modelle präziser lernen, welche chemischen Substanzen mit welchen Genen in Verbindung stehen.
Zur Bewertung wurden zwei hochmoderne Ansätze eingesetzt: BioBERT, ein auf biomedizinische Texte spezialisiertes BERT‑Modell, und eine Kombination aus BioBERT mit Graph Convolutional Networks (GCNs). Während BioBERT lokale Kontextinformationen hervorragend erfasst, ergänzt die GCN‑Architektur globale Netzwerkstrukturen, die für die Analyse komplexer chemisch‑genetischer Interaktionen wichtig sind.
Die Ergebnisse zeigen, dass die fusionierten Datensätze die Modellleistung signifikant steigern. Besonders in den CPR‑Gruppen, die in beiden ursprünglichen Datensätzen vorkommen, konnten sowohl die Präzision als auch die Rückrufrate verbessert werden. Die Integration von GCN‑Features erhöht die Gesamtleistung gegenüber der alleinigen Nutzung von BioBERT.
Diese Fortschritte eröffnen neue Möglichkeiten für die Pharmakologie und die biomedizinische Forschung, indem sie die automatische Extraktion relevanter Beziehungen aus der Literatur beschleunigen und die Grundlage für weitere Entdeckungen legen.