IGENBENCH: Benchmark zur Zuverlässigkeit von Text‑zu‑Infografik‑Modellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben IGENBENCH ins Leben gerufen, das erste umfassende Testsystem, um die Zuverlässigkeit von Text‑zu‑Infografik‑Modellen zu prüfen. Das Benchmark‑Set umfasst 600 sorgfältig ausgewählte Testfälle, die 30 verschiedene Infografik‑Typen abdecken. Durch ein automatisiertes Evaluationsframework werden die Ergebnisse in 10 atomare Ja‑/Nein‑Fragen zerlegt, die mit multimodalen großen Sprachmodellen (MLLMs) beantwortet werden. Auf dieser Basis lassen sich die Frage‑Level‑Genauigkeit (Q‑ACC) und die Infografik‑Level‑Genauigkeit (I‑ACC) bestimmen.

Bei einer umfassenden Analyse von zehn führenden Text‑zu‑Bild‑Modellen zeigte IGENBENCH ein deutliches Leistungsgefälle: Das bestplatzierte Modell erreichte eine Q‑ACC von 0,90, jedoch nur 0,49 bei der I‑ACC. Besonders auffällig sind datenbezogene Engpässe, etwa bei der Datenvollständigkeit, die bei allen Modellen nur 0,21 erreichten. Diese Ergebnisse unterstreichen die Herausforderung, eine vollständige und fehlerfreie Infografik von Anfang bis Ende zu erzeugen.

Die Entwickler stellen IGENBENCH kostenlos zur Verfügung und laden die Community ein, die Plattform unter https://igen-bench.vercel.app/ zu nutzen. Damit bietet das Projekt einen wichtigen Schritt zur Verbesserung der Qualität und Vertrauenswürdigkeit von automatisierten Infografik‑Generierungssystemen.

Ähnliche Artikel