CrochetBench: KI muss jetzt nicht nur beschreiben, sondern auch häkeln
Die neue Studie „CrochetBench“ stellt multimodale Sprachmodelle vor die Herausforderung, im Bereich des Häkels nicht nur zu beschreiben, sondern tatsächlich Anweisungen auszuführen. Dabei werden die Modelle mit einer Reihe von Aufgaben konfrontiert, die das Erkennen von Häkelstichen, die Auswahl geeigneter Anweisungen und die Generierung von ausführbaren Häkelprozeduren erfordern.
Im Mittelpunkt steht die Verwendung der CrochetPARADE-DSL, die als Zwischensprache dient. Durch diese Struktur können die generierten Anweisungen automatisch validiert und sogar ausgeführt werden, was eine objektive Bewertung der praktischen Fähigkeiten der Modelle ermöglicht. Die Benchmark umfasst Aufgaben wie Stichklassifikation, Anweisungszuordnung sowie die Übersetzung von natürlicher Sprache und Bildern in die DSL.
Die Ergebnisse zeigen, dass die Leistung der Modelle stark abnimmt, wenn von einer oberflächlichen Ähnlichkeitsbewertung zu einer prüfbaren Ausführbarkeit gewechselt wird. Dies verdeutlicht die Grenzen in der symbolischen Langzeitlogik und der dreidimensionalen Prozesssynthese, die für kreative, handwerkliche Anwendungen entscheidend sind. CrochetBench liefert damit einen neuen Ansatz, um die prozedurale Kompetenz multimodaler Modelle zu messen und die Lücke zwischen theoretischem Verständnis und praktischer Präzision aufzuzeigen.