Forschung arXiv – cs.AI

FinForge: Semi-synthetische Finanzbenchmark für KI-Modelle

Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt. Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt.
  • Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen die Tiefe und die fachliche Genauigkeit, die für echtes Finanz‑Reasoning nötig sind.
  • Um dieses Problem zu lösen, hat das Team hinter FinForge einen skalierbaren, semi‑synthetischen Prozess entwickelt.

Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt. Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen die Tiefe und die fachliche Genauigkeit, die für echtes Finanz‑Reasoning nötig sind.

Um dieses Problem zu lösen, hat das Team hinter FinForge einen skalierbaren, semi‑synthetischen Prozess entwickelt. Dabei werden Expertenwissen und automatisierte Textgenerierung kombiniert: Zunächst werden aus verlässlichen Finanzquellen manuell und programmatisch Korpora zusammengetragen. Anschließend generiert und validiert ein KI‑Modell, Gemini 2.5 Flash, strukturierte Fragen und Antworten.

Als Ergebnis entstand FinForge‑5k – ein Benchmark mit über 5.000 von Menschen geprüften Frage‑Antwort‑Paaren, verteilt auf 11 Finanz‑Unterbereiche. Diese wurden aus einem sorgfältig kuratierten Korpus von 100.000 Dokumenten mit insgesamt 143 Million Tokens abgeleitet.

Tests mit führenden Open‑Source‑ und Closed‑Source‑Modellen zeigen deutliche Unterschiede in der Finanz‑Reasoning‑Fähigkeit. Die besten Modelle erreichen Genauigkeiten von nahezu 80 %. Diese Ergebnisse verdeutlichen, wie FinForge dazu beitragen kann, aktuelle Schwächen von KI‑Modellen im Finanzbereich aufzudecken und gezielte Verbesserungen zu ermöglichen.

Alle Code‑ und Datensätze sind öffentlich zugänglich unter https://github.com/gtfintechlab/FinForge.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Finanzbereich
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
FinForge
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen