Forschung arXiv – cs.AI

Vision‑Language‑Modelle extrahieren BPMN‑Diagramme direkt aus Bildern

Ein neues Verfahren nutzt Vision‑Language‑Modelle (VLMs), um strukturierte JSON‑Darstellungen von Business Process Model and Notation (BPMN) Diagrammen direkt aus Bilddateien zu extrahieren. Dabei wird zusätzlich optisc…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein neues Verfahren nutzt Vision‑Language‑Modelle (VLMs), um strukturierte JSON‑Darstellungen von Business Process Model and Notation (BPMN) Diagrammen direkt aus Bildda…
  • Dabei wird zusätzlich optische Zeichenerkennung (OCR) eingesetzt, um Textinformationen zu ergänzen und die Genauigkeit der extrahierten Elemente zu erhöhen.
  • Traditionell werden BPMN‑Diagramme in XML‑Dateien gespeichert, die für die Analyse benötigt werden.

Ein neues Verfahren nutzt Vision‑Language‑Modelle (VLMs), um strukturierte JSON‑Darstellungen von Business Process Model and Notation (BPMN) Diagrammen direkt aus Bilddateien zu extrahieren. Dabei wird zusätzlich optische Zeichenerkennung (OCR) eingesetzt, um Textinformationen zu ergänzen und die Genauigkeit der extrahierten Elemente zu erhöhen.

Traditionell werden BPMN‑Diagramme in XML‑Dateien gespeichert, die für die Analyse benötigt werden. Das vorgestellte System funktioniert jedoch ohne Zugriff auf die Original‑XML‑Dateien oder zusätzliche Textannotationen, was besonders in Szenarien nützlich ist, in denen die Quellmodelle nicht verfügbar sind.

Die Autoren haben mehrere VLM‑Modelle benchmarked und zeigen, dass die Integration von OCR die Leistung in mehreren Fällen deutlich verbessert. Zusätzlich wurden umfangreiche statistische Analysen der OCR‑Enrichment‑Methoden sowie Prompt‑Ablation‑Studien durchgeführt, um die Auswirkungen auf die Modellperformance besser zu verstehen.

Das Ergebnis ist ein robustes Pipeline‑Konzept, das die Extraktion von BPMN‑Diagrammen aus visuellen Medien erleichtert und die Grundlage für weitere automatisierte Prozessanalysen bildet.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Vision‑Language‑Modelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
OCR
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
BPMN
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen