ViDoRe V3: Neuer multimodaler Benchmark für Retrieval-Augmented Generation

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neueste Version des ViDoRe-Benchmarks – ViDoRe V3 – setzt neue Maßstäbe für Retrieval-Augmented Generation (RAG). Während frühere Tests vor allem auf reine Textdaten und einzelne Dokumente beschränkt waren, fordert ViDoRe V3 die Modelle heraus, komplexe visuelle Inhalte wie Tabellen, Diagramme und Bilder zu verstehen und daraus konsistente Antworten zu generieren.

Der Benchmark umfasst zehn unterschiedliche Datensätze aus verschiedenen Fachbereichen und enthält rund 26 000 Dokumentenseiten. Für diese Seiten wurden 3 099 Fragen von Menschen verifiziert, die in sechs Sprachen vorliegen. Durch 12 000 Stunden sorgfältiger Annotation wurden nicht nur die Relevanz der Suchergebnisse, sondern auch genaue Begrenzungsrahmen (Bounding‑Boxes) und geprüfte Antwortreferenzen erfasst.

Eine umfassende Evaluation der führenden RAG‑Modelle zeigte, dass visuelle Suchmodule die Leistung deutlich steigern. Modelle, die erst später mit den Suchergebnissen interagieren, sowie solche, die eine textbasierte Re-Ranking‑Schicht nutzen, erzielen besonders gute Resultate. Auch hybride Ansätze, die sowohl visuelle als auch reine Textinformationen berücksichtigen, verbessern die Qualität der generierten Antworten.

Trotz dieser Fortschritte bleiben Herausforderungen bestehen. Modelle kämpfen noch mit rein visuellen Elementen, offenen Fragen und der präzisen Zuordnung von Text zu Bild. ViDoRe V3 bietet damit einen klaren Fahrplan, um diese Schwächen gezielt anzugehen.

Der Benchmark steht unter einer kommerziell permissiven Lizenz und ist frei zugänglich unter https://hf.co/vidore.

Ähnliche Artikel