Neues Benchmark FIFE enthüllt Leistungsunterschiede bei Sprachmodellen im Finanzbereich
Ein neues Benchmark namens FIFE (Financial Instruction Following Evaluation) wurde veröffentlicht, um die Fähigkeit von Sprachmodellen (LMs) zu testen, komplexe und voneinander abhängige Anweisungen im Finanzbereich korrekt zu befolgen. Das Ziel ist es, die Präzision und Zuverlässigkeit von LMs in hochriskanten Szenarien zu messen, in denen Fehler schwerwiegende Folgen haben können.
FIFE besteht aus 88 von Menschen verfassten Prompten, die speziell auf finanzielle Analyseaufgaben zugeschnitten sind. Das System nutzt ein Verifizierungskonzept mit verknüpften, überprüfbaren Einschränkungen, um detaillierte Belohnungswerte zu generieren. Dadurch kann die Leistung der Modelle nicht nur in einer Gesamtbewertung, sondern auch auf einzelnen Unteraufgaben genau analysiert werden.
Bei einer Zero‑Shot‑Evaluierung wurden 53 Modelle – darunter proprietäre, Open‑Weight- und Open‑Source‑Versionen – getestet. Die Ergebnisse zeigen eine klare Rangfolge: Das beste Open‑Weight-Modell erreichte 76,1 % bei strenger Bewertung und 79,5 % bei lockerer Bewertung, während das führende proprietäre System 65,9 % bzw. 70,5 % erzielte. Die Top‑Open‑Source‑Modelle lagen deutlich hinterher mit 45,5 % bzw. 48,9 %. Selbst die leistungsstärksten Modelle konnten die komplexen Anforderungen von FIFE nicht vollständig erfüllen.
Die Autoren stellen das komplette Datenset und den Code als Open‑Source‑Ressource zur Verfügung, um die Forschung im Bereich Reinforcement Learning für Finanzanwendungen zu fördern. Durch die Veröffentlichung von FIFE wird ein neuer Standard für die Bewertung von Sprachmodellen in kritischen Finanzanwendungen gesetzt und die Entwicklung robusterer Systeme vorangetrieben.