IGENBENCH: Benchmark zur Zuverlässigkeit von Text‑zu‑Infografik‑Modellen
Forscher haben IGENBENCH ins Leben gerufen, das erste umfassende Testsystem, um die Zuverlässigkeit von Text‑zu‑Infografik‑Modellen zu prüfen. Das Benchmark‑Set umfasst 600 sorgfältig ausgewählte Testfälle, die 30 verschiedene Infografik‑Typen abdecken. Durch ein automatisiertes Evaluationsframework werden die Ergebnisse in 10 atomare Ja‑/Nein‑Fragen zerlegt, die mit multimodalen großen Sprachmodellen (MLLMs) beantwortet werden. Auf dieser Basis lassen sich die Frage‑Level‑Genauigkeit (Q‑ACC) und die Infografik‑Level‑Genauigkeit (I‑ACC) bestimmen.