FractalBench: visuelle Muster in mathematische Programme übersetzen

FractalBench ist ein neues Benchmark, das die Fähigkeit multimodaler KI‑Modelle testet, aus Bildern komplexe mathematische Programme abzuleiten. Durch die Analyse von Fraktalen – selbstähnlichen Mustern, die mit wenigen rekursiven Regeln erzeugt werden – wird geprüft, ob Modelle die Brücke zwischen visueller Wahrnehmung und abstrakter Mathematik schlagen können.

Die Studie nutzt 12 klassische Fraktale, die mit Iterated Function Systems (IFS) erzeugt werden. Vier führende multimodale Large Language Models (GPT‑4o, Claude 3.7 Sonnet, Gemini 2.5 Flash und Qwen 2.5‑VL) werden aufgefordert, Python‑Code zu schreiben, der das jeweilige Fraktal reproduziert. Der Code kann anschließend automatisch ausgeführt und gegen die Originalbilder verglichen werden, wodurch eine objektive Bewertung möglich ist.

Ergebnisse zeigen einen deutlichen Leistungsunterschied: 76 % der Modelle erzeugen syntaktisch korrekten Code, jedoch gelingt es lediglich 4 % von ihnen, die eigentliche mathematische Struktur zu erfassen. Während geometrische Transformationen wie bei den Koch‑Kurven (17‑21 %) teilweise erfolgreich umgesetzt werden, scheitern die Modelle bei rekursiven Verzweigungen, etwa bei Baum‑Fraktalen, mit weniger als 2 % Genauigkeit. Diese Diskrepanz unterstreicht fundamentale Lücken in der mathematischen Abstraktion von KI‑Systemen.

FractalBench bietet damit ein kontaminationsresistentes Diagnoseinstrument für visuell‑mathematisches Denken. Das Tool ist öffentlich zugänglich unter https://github.com/NaiveNeuron/FractalBench und ermöglicht Forschern, die Grenzen aktueller Modelle systematisch zu untersuchen und gezielt zu verbessern.

Ähnliche Artikel

🍪 Cookie-Einstellungen