Neues ERI-Benchmark: 57.750 Aufgaben für Ingenieur-LLMs

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Ein brandneues Benchmark-Dataset namens Engineering Reasoning and Instruction (ERI) wurde veröffentlicht, das speziell dafür entwickelt wurde, große Sprachmodelle (LLMs) und Agenten im Ingenieurwesen zu trainieren und zu testen. Das ERI-Set bietet eine umfassende, taxonomiebasierte Sammlung von Aufgaben, die Ingenieure in ihrer täglichen Arbeit herausfordern.

Der Datensatz deckt neun Ingenieurdisziplinen ab – von Bau- und Maschinenbau bis hin zu Elektrotechnik, Chemie, Umwelt, Luft- und Raumfahrt, Materialwissenschaft, Brandschutz und Industrieingenieurwesen – und umfasst 55 Unterbereiche. Jede Aufgabe ist zusätzlich nach sieben Intentionstypen klassifiziert: Definition, Erklärung, Berechnung, Vergleich, Design/Synthese, Fehlersuche und Code-bezogene Aufgaben. Für jede Kombination von Fachgebiet, Unterbereich, Intentionstyp und Schwierigkeitsgrad (Bachelor, Master, Profi) wurden 57.750 Einträge erstellt, die mit Metadaten und formatierten Lösungen versehen sind.

Bei der Evaluierung mit sieben führenden LLMs zeigte sich ein klarer dreistufiger Leistungsunterschied: Frontier-Modelle wie GPT‑5, Claude Sonnet 4 und DeepSeek V3.1 erreichten durchschnittliche Punktzahlen von über 4,30 auf einer Skala von fünf. Modelle mittleren Ranges und kleinere Modelle litten unter deutlich höheren Fehlerraten, insbesondere bei graduate‑Level-Fragen, was die Notwendigkeit einer gezielten Schulung in komplexeren Ingenieuraufgaben unterstreicht.

Um die Gefahr von Halluzinationen zu minimieren, wurde ein konvergentes Validierungsprotokoll entwickelt, das Unabhängigkeit von Anbietern, Mehrfachurteilungsdurchschnitt und Übereinstimmungsanalyse von Frontier-Modellen nutzt. Dieses Verfahren begrenzt die Halluzinationsrate empirisch auf 1,7 %. Das ERI-Benchmark wird zusammen mit Taxonomie-Spezifikationen, Validierungsskripten und einem Evaluierungs-Harness veröffentlicht, um reproduzierbare Vergleiche, Regressionstests und Weiterentwicklungen in der Instruction‑Tuning‑ und Agentenforschung zu ermöglichen.