ORIGAMISPACE: Neues Benchmark für multimodale LLMs im räumlichen Mehrschritt‑Denken

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens ORIGAMISPACE wurde auf arXiv veröffentlicht und richtet sich an die Bewertung multimodaler Large Language Models (MLLMs) in komplexen räumlichen Aufgaben. Das Ziel ist es, die Fähigkeit dieser Modelle zu prüfen, mehrstufige räumliche Probleme zu lösen und dabei präzise mathematische Einschränkungen zu berücksichtigen.

Das Benchmark besteht aus 350 sorgfältig kuratierten Datensätzen, die jeweils ein streng formatiertes Falzdiagramm (CP), das kompakte Flachmuster, den vollständigen Faltprozess und ein Bild der endgültig gefalteten Form enthalten. Durch diese Struktur können Forscher die Modellleistung in verschiedenen Dimensionen untersuchen.

Vier zentrale Aufgaben wurden definiert: Mustervorhersage, mehrstufiges räumliches Denken, Vorhersage räumlicher Beziehungen und die End‑zu‑End‑Generierung von CP‑Code. Für die Code‑Generierung wurde ein interaktives Umfeld geschaffen, das die Anwendung von Reinforcement‑Learning‑Methoden ermöglicht, um MLLMs gezielt zu trainieren.

Erste Experimente mit bestehenden MLLMs haben bereits erste Stärken und Schwächen aufgedeckt. Während einige Modelle bei der Mustervorhersage überzeugen, zeigen sich bei komplexen Mehrschritt‑Aufgaben noch deutliche Lücken. Das ORIGAMISPACE‑Benchmark bietet damit eine wertvolle Plattform, um die Entwicklung multimodaler KI‑Systeme gezielt zu fördern und ihre Grenzen zu erforschen.

Ähnliche Artikel