Forschung arXiv – cs.AI

PlotChain: Neuer Benchmark für multimodale LLMs beim technischen Plotlesen

Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert. Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantit…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert.
  • Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantitative Werte aus klassischen Plots wie Bode‑, FFT‑, Schrittantwort‑, Spannungs‑Dehnungs‑…
  • Das Datenset umfasst 15 Plotfamilien mit insgesamt 450 gerenderten Diagrammen – 30 pro Familie.

Mit PlotChain wird die Leistungsfähigkeit multimodaler Large Language Models (LLMs) beim Lesen von technischen Diagrammen neu definiert. Der Benchmark nutzt einen deterministischen, generatorbasierten Ansatz, um quantitative Werte aus klassischen Plots wie Bode‑, FFT‑, Schrittantwort‑, Spannungs‑Dehnungs‑ und Pumpkurven exakt zu extrahieren.

Das Datenset umfasst 15 Plotfamilien mit insgesamt 450 gerenderten Diagrammen – 30 pro Familie. Jeder Plot wird aus bekannten Parametern erzeugt und mit einer exakt berechneten Ground‑Truth‑Antwort versehen. Zusätzlich enthält jedes Beispiel checkpoint‑basierte Zwischenfelder („cp_“), die einzelne Teilaufgaben wie das Lesen der Grenzfrequenz oder der Peak‑Amplitude isolieren und so eine präzise Fehlerlokalisierung ermöglichen.

Vier führende multimodale LLMs wurden unter einem standardisierten, deterministischen Protokoll getestet: Temperatur 0, ausschließlich JSON‑basierte numerische Ausgaben. Die Bewertung erfolgte mit Feld‑zu‑Feld‑Toleranzen, die die Genauigkeit menschlicher Plotleser widerspiegeln. Unter der „plotread“-Toleranz erreichten die Spitzenmodelle 80,42 % (Gemini 2.5 Pro), 79,84 % (GPT‑4.1) und 78,21 % (Claude Sonnet 4.5), während GPT‑4o bei 61,59 % lag.

Obwohl viele Plotfamilien gut abgedeckt sind, bleiben frequenz‑dominiert Aufgaben wie Bandpass‑Antworten (≤ 23 %) und FFT‑Spektren besonders herausfordernd. Die Autoren stellen den Generator, das komplette Datenset, rohe Modelausgaben, den Scoring‑Code sowie Prüfsummen‑Manifeste frei, um vollständig reproduzierbare Experimente zu gewährleisten.

PlotChain bietet damit ein robustes, nachvollziehbares Werkzeug, um die Fähigkeiten multimodaler LLMs im technischen Plotlesen zu messen und gezielt zu verbessern. Es eröffnet neue Möglichkeiten für die Entwicklung von KI‑Systemen, die komplexe technische Visualisierungen zuverlässig interpretieren können.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.