TASER: Agentenbasierte Tabellenextraktion verbessert Finanzdatenanalyse um 10 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Finanzwelt liegen wichtige Informationen über Unternehmensbestände oft in unübersichtlichen, mehrseitigen Tabellen verborgen. 99,4 % dieser Tabellen besitzen keine klaren Begrenzungen, und einzelne Tabellen können bis zu 426 Zeilen umfassen. Um diese Herausforderung zu meistern, hat ein Forschungsteam das System TASER (Table Agents for Schema‑guided Extraction and Recommendation) entwickelt.

TASER arbeitet als kontinuierlich lernender Agenten-Cluster, der Tabellen erkennt, klassifiziert, extrahiert und anschließend Empfehlungen für die Schema‑Anpassung gibt. Ein spezieller Recommender‑Agent überprüft die Ergebnisse, schlägt Schema‑Revisionen vor und trifft die endgültigen Entscheidungen. Durch diesen iterativen Prozess übertrifft TASER bestehende Modelle wie den Table Transformer um 10,1 % bei der Tabellenerkennung.

Ein weiterer entscheidender Faktor ist die Batch‑Größe: Größere Batches führen zu einer 104,3 %igen Steigerung der umsetzbaren Schema‑Empfehlungen und erhöhen die extrahierten Bestände um 9,8 %. Diese Zahlen unterstreichen die Bedeutung eines kontinuierlichen Lernprozesses bei der Verarbeitung komplexer Finanzdaten.

Für das Training wurden 22.584 Seiten manuell annotiert, was 28.150.449 Tokens und 3.213 Tabellen mit einem Gesamtwert von 731 685 511 687 USD entspricht – einer der ersten echten Finanztabellen‑Datensätze. Das Team stellt das Dataset TASERTab frei zur Verfügung, um weitere Forschung und Anwendungen in der Finanzdatenanalyse zu fördern.

Ähnliche Artikel