KGpipe: Neues Framework für reproduzierbare KG-Integrationspipelines
Die Erstellung hochwertiger Wissensgraphen aus heterogenen Datenquellen erfordert die Kombination mehrerer Techniken – von der Informationsgewinnung über Datenumwandlung und Ontologie‑Mapping bis hin zu Entität‑Matching und Datenfusion. Obwohl für jeden dieser Schritte zahlreiche Tools und Methoden existieren, fehlt bislang ein systematischer Ansatz, um sie in wiederholbare und effektive End‑to‑End‑Pipelines zu integrieren.
Mit dem neuen Framework KGpipe wird genau das möglich gemacht. KGpipe erlaubt die Definition und Ausführung von Integrationspipelines, die bestehende Werkzeuge oder sogar Funktionen großer Sprachmodelle (LLMs) miteinander verknüpfen. So können Anwender:innen flexibel entscheiden, welche Komponenten in ihrer Pipeline eingesetzt werden sollen.
Um die Qualität und Leistung verschiedener Pipelines zu vergleichen, stellt KGpipe ein Benchmark‑Set vor. Dabei werden heterogene Datenformate – RDF, JSON und Text – in einen Ausgangs‑Wissensgraphen integriert. Die Benchmark liefert sowohl Leistungs‑ als auch Qualitätsmetriken, die eine objektive Bewertung ermöglichen.
In einer Demonstration wurden mehrere Pipelines mit unterschiedlichen Quellen und Formaten ausgeführt und gegeneinander abgewogen. Die Ergebnisse zeigen die Vielseitigkeit von KGpipe und verdeutlichen, wie sich durch gezielte Pipeline‑Konfiguration sowohl die Effizienz als auch die Genauigkeit der erzeugten Wissensgraphen steigern lässt.