Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Dokumente”
Forschung

<p>IRPAPERS: Benchmark für visuelle Dokumentensuche und Fragenbeantwortung</p> <p>Die neue Studie IRPAPERS liefert einen umfassenden Teststand für die Verarbeitung von wissenschaftlichen Dokumenten in Bildform. Im Gegensatz zu herkömmlichen Ansätzen, die auf OCR-Transkriptionen angewiesen sind, untersucht die Arbeit, wie moderne multimodale Modelle direkt aus Bilddaten zurückgreifen können.</p> <p>Der Datensatz umfasst 3.230 Seiten aus 166 wissenschaftlichen Arbeiten. Für jede Seite stehen sowohl das Origin

arXiv – cs.AI
Forschung

<p>Effiziente Tabellenabfrage und -verständnis mit multimodalen Sprachmodellen</p> <p>Tabellen, die als Bilder vorliegen – etwa in Finanzberichten, handschriftlichen Aufzeichnungen oder gescannten Dokumenten – stellen besondere Herausforderungen für die maschinelle Analyse dar. Sie vereinen strukturelle und visuelle Komplexität, die bislang nur schwer zu bewältigen ist.</p> <p>Moderne multimodale Large Language Models (MLLMs) haben zwar vielversprechende Fortschritte im Tabellenverständnis erzielt, gehen je

arXiv – cs.AI