Vision‑Language‑Modelle extrahieren BPMN‑Diagramme direkt aus Bildern

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren nutzt Vision‑Language‑Modelle (VLMs), um strukturierte JSON‑Darstellungen von Business Process Model and Notation (BPMN) Diagrammen direkt aus Bilddateien zu extrahieren. Dabei wird zusätzlich optische Zeichenerkennung (OCR) eingesetzt, um Textinformationen zu ergänzen und die Genauigkeit der extrahierten Elemente zu erhöhen.

Traditionell werden BPMN‑Diagramme in XML‑Dateien gespeichert, die für die Analyse benötigt werden. Das vorgestellte System funktioniert jedoch ohne Zugriff auf die Original‑XML‑Dateien oder zusätzliche Textannotationen, was besonders in Szenarien nützlich ist, in denen die Quellmodelle nicht verfügbar sind.

Die Autoren haben mehrere VLM‑Modelle benchmarked und zeigen, dass die Integration von OCR die Leistung in mehreren Fällen deutlich verbessert. Zusätzlich wurden umfangreiche statistische Analysen der OCR‑Enrichment‑Methoden sowie Prompt‑Ablation‑Studien durchgeführt, um die Auswirkungen auf die Modellperformance besser zu verstehen.

Das Ergebnis ist ein robustes Pipeline‑Konzept, das die Extraktion von BPMN‑Diagrammen aus visuellen Medien erleichtert und die Grundlage für weitere automatisierte Prozessanalysen bildet.

Ähnliche Artikel