RAG-IGBench: Neuer Benchmark für multimodale Fragebeantwortung
In realen Anwendungsszenarien können visuell angereicherte Antworten das Verständnis und die Erinnerung der Nutzer deutlich verbessern. Deshalb gewinnt die interleaved image‑text‑Generation – bei der Bild- und Textinhalte nahtlos kombiniert werden – zunehmend an Bedeutung.
Obwohl Fortschritte wie das visuelle autoregressive Modell, das Text- und Bildverarbeitung in einer einzigen Transformer‑Architektur vereint, erzielt wurden, bleibt die Erzeugung hochwertiger interleaved Inhalte eine Herausforderung. Gleichzeitig sind die Evaluationen dieser Sequenzen bislang kaum erforscht, und bestehende Benchmarks greifen oft auf unimodale Metriken zurück, die die Komplexität von Bild‑und Textausgaben nicht ausreichend abbilden.
Um diese Lücken zu schließen, stellt RAG‑IGBench einen umfassenden Benchmark vor, der speziell die Aufgabe der Retrieval‑Augmented Generation (RAG‑IG) in der offenen Fragebeantwortung bewertet. RAG‑IG kombiniert multimodale Large Language Models (MLLMs) mit Retrieval‑Mechanismen, sodass die Modelle externe Bild‑Text‑Informationen nutzen können, um kohärente multimodale Inhalte zu erzeugen. Im Gegensatz zu früheren Datensätzen greift RAG‑IGBench auf aktuelle, öffentlich verfügbare Inhalte aus sozialen Plattformen zurück und führt innovative Evaluationsmetriken ein, die die Qualität von Text und Bild sowie deren Konsistenz messen.
Durch umfangreiche Experimente mit führenden MLLMs – sowohl Open‑Source als auch proprietär – liefert RAG‑IGBench eine detaillierte Analyse der Stärken und Schwächen dieser Modelle. Die Validierung der neuen Metriken zeigt eine hohe Korrelation mit menschlichen Bewertungen, was die Relevanz und Aussagekraft des Benchmarks unterstreicht. RAG‑IGBench bietet damit Forschern und Entwicklern ein wertvolles Werkzeug, um multimodale Fragebeantwortungssysteme realitätsnah zu testen und weiterzuentwickeln.