FinForge: Semi-synthetische Finanzbenchmark für KI-Modelle
Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt. Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen…
- Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt.
- Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen die Tiefe und die fachliche Genauigkeit, die für echtes Finanz‑Reasoning nötig sind.
- Um dieses Problem zu lösen, hat das Team hinter FinForge einen skalierbaren, semi‑synthetischen Prozess entwickelt.
Die Bewertung von Sprachmodellen (LMs) im Finanzbereich ist bislang schwierig, weil es kaum offene, hochwertige und domänenspezifische Datensätze gibt. Allgemeine Benchmarks decken zwar viele Themen ab, aber sie fehlen die Tiefe und die fachliche Genauigkeit, die für echtes Finanz‑Reasoning nötig sind.
Um dieses Problem zu lösen, hat das Team hinter FinForge einen skalierbaren, semi‑synthetischen Prozess entwickelt. Dabei werden Expertenwissen und automatisierte Textgenerierung kombiniert: Zunächst werden aus verlässlichen Finanzquellen manuell und programmatisch Korpora zusammengetragen. Anschließend generiert und validiert ein KI‑Modell, Gemini 2.5 Flash, strukturierte Fragen und Antworten.
Als Ergebnis entstand FinForge‑5k – ein Benchmark mit über 5.000 von Menschen geprüften Frage‑Antwort‑Paaren, verteilt auf 11 Finanz‑Unterbereiche. Diese wurden aus einem sorgfältig kuratierten Korpus von 100.000 Dokumenten mit insgesamt 143 Million Tokens abgeleitet.
Tests mit führenden Open‑Source‑ und Closed‑Source‑Modellen zeigen deutliche Unterschiede in der Finanz‑Reasoning‑Fähigkeit. Die besten Modelle erreichen Genauigkeiten von nahezu 80 %. Diese Ergebnisse verdeutlichen, wie FinForge dazu beitragen kann, aktuelle Schwächen von KI‑Modellen im Finanzbereich aufzudecken und gezielte Verbesserungen zu ermöglichen.
Alle Code‑ und Datensätze sind öffentlich zugänglich unter https://github.com/gtfintechlab/FinForge.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.