Neues KI-Framework erzeugt fotorealistische Gefahrenbilder aus OSHA-Berichten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein innovatives KI-Framework nutzt Szenengraphen, um realistische Bilder von Arbeitsunfällen zu erzeugen. Durch die Analyse von OSHA-Berichten mit GPT‑4o werden strukturierte Gefahrenanalysen extrahiert und in objektbezogene Graphen überführt, die räumliche und kontextuelle Beziehungen abbilden.

Diese Graphen dienen als Leitfaden für ein Text‑zu‑Bild‑Diffusionsmodell, das präzise und kompositionsgerecht Gefahrenbilder generiert. Damit können Forscher und Sicherheitsexperten nun umfangreiche Datensätze erstellen, die bisher schwer zugänglich waren.

Zur Bewertung der Bildqualität wurde ein neues Visual‑Question‑Answering‑Framework entwickelt. Der VQA‑Graph‑Score übertrifft etablierte Metriken wie CLIP und BLIP, indem er die semantische Treue und die Erkennungsgenauigkeit der generierten Szenen besser misst.

Ähnliche Artikel