FinAgentBench: Das erste Benchmark‑Dataset für mehrstufige Suche im Finanzbereich

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

FinAgentBench, ein neues Benchmark‑Dataset, eröffnet die Forschung im Bereich der mehrstufigen Informationssuche (Agentic Retrieval) im Finanzsektor. Es bietet die bislang fehlende Grundlage, um die Leistungsfähigkeit von großen Sprachmodellen (LLMs) bei der gezielten Suche nach relevanten Finanzinformationen zu messen.

In der Finanzwelt ist die präzise Retrieval‑Fähigkeit entscheidend, denn Investoren müssen aus riesigen Dokumentensammlungen die wichtigsten Informationen extrahieren. Traditionelle Suchmethoden – sei es spärlich oder dicht – stoßen an ihre Grenzen, weil sie nicht nur semantische Ähnlichkeiten erkennen, sondern auch fein abgestufte logische Schlüsse aus Dokumentenstrukturen und branchenspezifischem Wissen ziehen können.

FinAgentBench besteht aus 3.429 von Experten annotierten Beispielen zu Unternehmen aus dem S&P‑100. Das Benchmark‑Framework teilt die Aufgabe in zwei klar abgegrenzte Schritte: Erstens die Auswahl des relevantesten Dokumententyps unter mehreren Kandidaten, und zweitens die Identifikation des entscheidenden Abschnitts innerhalb des ausgewählten Dokuments. Diese Aufteilung berücksichtigt die Kontextbeschränkungen moderner Modelle und ermöglicht eine präzise Analyse ihrer Retrieval‑Strategien.

Die Autoren haben eine Reihe von hochmodernen Modellen evaluiert und gezeigt, dass gezieltes Feintuning die Agentic‑Retrieval‑Leistung signifikant steigert. Das Ergebnis liefert einen quantitativen Maßstab, um das Verhalten von LLM‑Agenten im Finanzbereich besser zu verstehen und weiter zu verbessern.

FinAgentBench markiert einen wichtigen Meilenstein: Es schafft die Grundlage für die Entwicklung und den Vergleich von Retrieval‑Systemen, die nicht nur nach Relevanz suchen, sondern auch komplexe, mehrstufige Überlegungen anstellen können. Damit wird die Tür zu effizienteren, verlässlicheren Finanz‑Informationsdiensten geöffnet.

Ähnliche Artikel