PyFi: Neues Pyramidensystem für Finanzbilder verbessert VLMs um bis zu 19,5 %
Ein neues Forschungsprojekt namens PyFi präsentiert ein innovatives Pyramidensystem, das Vision‑Language‑Models (VLMs) dabei unterstützt, Finanzbilder schrittweise zu verstehen. Durch die Kombination von Bild- und Textdaten können die Modelle komplexe finanzielle Fragen in einer logischen, mehrstufigen Abfolge beantworten.
Im Mittelpunkt steht die PyFi‑600K‑Datenbank, die 600 000 Frage‑Antwortpaare enthält. Diese Paare sind in einer „Reasoning‑Pyramid“ angeordnet: Basisfragen erfordern nur grundlegende Bildwahrnehmung, während Fragen an der Spitze der Pyramide fortgeschrittene finanzielle Analyse und Fachwissen verlangen. Die Daten wurden ohne menschliche Annotationen generiert, indem ein mehragentenbasiertes, adversariales System namens PyFi‑adv eingesetzt wurde. Dabei konkurrieren ein Herausforderer‑Agent und ein Lösungs‑Agent, um Frageketten zu erzeugen, die die Fähigkeiten der Modelle systematisch herausfordern.
Mit dieser umfangreichen, hierarchisch strukturierten Datenbasis konnten die Forscher die Leistung moderner VLMs im Finanzbereich detailliert evaluieren. Durch das Feintuning von Qwen2.5‑VL‑3B und Qwen2.5‑VL‑7B auf die Pyramidensystem‑Frageketten erzielten die Modelle durchschnittliche Genauigkeitssteigerungen von 19,52 % bzw. 8,06 %. Diese Fortschritte zeigen, dass die schrittweise Aufschlüsselung komplexer Fragen die Leistungsfähigkeit von VLMs signifikant erhöht.
Alle zugehörigen Ressourcen – Code, Datensatz und Modelle – sind öffentlich zugänglich unter https://github.com/AgenticFinLab/PyFi.