FinForge: Semi-synthetische Finanzbenchmark für KI-Modelle
Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt. Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen die Tiefe und die fachliche Genauigkeit, die für echtes Finanz‑Reasoning nötig sind.
Um dieses Problem zu lösen, hat das Team hinter FinForge einen skalierbaren, semi‑synthetischen Prozess entwickelt. Dabei werden Expertenwissen und automatisierte Textgenerierung kombiniert: Zunächst werden aus verlässlichen Finanzquellen manuell und programmatisch Korpora zusammengetragen. Anschließend generiert und validiert ein KI‑Modell, Gemini 2.5 Flash, strukturierte Fragen und Antworten.
Als Ergebnis entstand FinForge‑5k – ein Benchmark mit über 5.000 von Menschen geprüften Frage‑Antwort‑Paaren, verteilt auf 11 Finanz‑Unterbereiche. Diese wurden aus einem sorgfältig kuratierten Korpus von 100.000 Dokumenten mit insgesamt 143 Million Tokens abgeleitet.
Tests mit führenden Open‑Source‑ und Closed‑Source‑Modellen zeigen deutliche Unterschiede in der Finanz‑Reasoning‑Fähigkeit. Die besten Modelle erreichen Genauigkeiten von nahezu 80 %. Diese Ergebnisse verdeutlichen, wie FinForge dazu beitragen kann, aktuelle Schwächen von KI‑Modellen im Finanzbereich aufzudecken und gezielte Verbesserungen zu ermöglichen.
Alle Code‑ und Datensätze sind öffentlich zugänglich unter https://github.com/gtfintechlab/FinForge.