PlotChain: Neuer Benchmark für multimodale LLMs beim technischen Plotlesen
Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert. Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantit…
- Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert.
- Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantitative Werte aus klassischen Plots wie Bode‑, FFT‑, Schrittantwort‑, Spannungs‑Dehnungs‑…
- Das Datenset umfasst 15 Plotfamilien mit insgesamt 450 gerenderten Diagrammen – 30 pro Familie.
Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert. Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantitative Werte aus klassischen Plots wie Bode‑, FFT‑, Schrittantwort‑, Spannungs‑Dehnungs‑ und Pumpkurven exakt zu extrahieren.
Das Datenset umfasst 15 Plotfamilien mit insgesamt 450 gerenderten Diagrammen – 30 pro Familie. Jeder Plot wird aus bekannten Parametern erzeugt und mit einer exakt berechneten Ground‑Truth‑Antwort versehen. Zusätzlich enthält jedes Beispiel checkpoint‑basierte Zwischenfelder („cp_“), die einzelne Teilaufgaben wie das Lesen der Grenzfrequenz oder der Peak‑Amplitude isolieren und so eine präzise Fehlerlokalisierung ermöglichen.
Vier führende multimodale LLMs wurden unter einem standardisierten, deterministischen Protokoll getestet: Temperatur 0, ausschließlich JSON‑basierte numerische Ausgaben. Die Bewertung erfolgte mit Feld‑zu‑Feld‑Toleranzen, die die Genauigkeit menschlicher Plotleser widerspiegeln. Unter der „plotread“-Toleranz erreichten die Spitzenmodelle 80,42 % (Gemini 2.5 Pro), 79,84 % (GPT‑4.1) und 78,21 % (Claude Sonnet 4.5), während GPT‑4o bei 61,59 % lag.
Obwohl viele Plotfamilien gut abgedeckt sind, bleiben frequenz‑dominiert Aufgaben wie Bandpass‑Antworten (≤ 23 %) und FFT‑Spektren besonders herausfordernd. Die Autoren stellen den Generator, das komplette Datenset, rohe Modelausgaben, den Scoring‑Code sowie Prüfsummen‑Manifeste frei, um vollständig reproduzierbare Experimente zu gewährleisten.
PlotChain bietet damit ein robustes, nachvollziehbares Werkzeug, um die Fähigkeiten multimodaler LLMs im technischen Plotlesen zu messen und gezielt zu verbessern. Es eröffnet neue Möglichkeiten für die Entwicklung von KI‑Systemen, die komplexe technische Visualisierungen zuverlässig interpretieren können.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.