ScratchWorld: Benchmark für multimodale GUI-Agenten im Programmieren
In der Welt der Low‑Code‑Bildung spielt Scratch eine zentrale Rolle, doch bislang fehlt ein systematisches Verfahren, um KI‑Agenten zu testen, die Programme über grafische Benutzeroberflächen erstellen. ScratchWorld fül…
- In der Welt der Low‑Code‑Bildung spielt Scratch eine zentrale Rolle, doch bislang fehlt ein systematisches Verfahren, um KI‑Agenten zu testen, die Programme über grafisc…
- ScratchWorld füllt diese Lücke: Es ist ein neues Benchmark, das multimodale Agenten auf ihre Fähigkeit prüft, Scratch‑Programme Schritt für Schritt zu konstruieren.
- Das Benchmark‑Set besteht aus 83 sorgfältig ausgewählten Aufgaben, die vier unterschiedliche Problemkategorien abdecken: Create, Debug, Extend und Compute.
In der Welt der Low‑Code‑Bildung spielt Scratch eine zentrale Rolle, doch bislang fehlt ein systematisches Verfahren, um KI‑Agenten zu testen, die Programme über grafische Benutzeroberflächen erstellen. ScratchWorld füllt diese Lücke: Es ist ein neues Benchmark, das multimodale Agenten auf ihre Fähigkeit prüft, Scratch‑Programme Schritt für Schritt zu konstruieren.
Das Benchmark‑Set besteht aus 83 sorgfältig ausgewählten Aufgaben, die vier unterschiedliche Problemkategorien abdecken: Create, Debug, Extend und Compute. Diese Aufgaben orientieren sich am pädagogischen Use‑Modify‑Create‑Framework und fordern die Agenten sowohl kreativ als auch analytisch heraus.
Um die Ursachen von Fehlern genau zu identifizieren, nutzt ScratchWorld zwei ergänzende Interaktionsmodi. Im „primitive“ Modus müssen Agenten feingranulare Drag‑and‑Drop‑Manöver ausführen, wodurch die visuell‑motorische Kontrolle direkt getestet wird. Der „composite“ Modus hingegen setzt auf hochrangige semantische APIs, die die Programmlogik von der eigentlichen GUI‑Ausführung trennen und so das reine Denkvermögen isolieren.
Die Bewertung erfolgt über ein ausgefeiltes, ausführungsgestütztes Protokoll: Nach dem Erstellen eines Scratch‑Programms wird dessen Funktionsfähigkeit in Echtzeit im Browser getestet. Nur wenn das Programm die definierten Laufzeittests besteht, gilt es als korrekt.
Die ersten Experimente mit führenden multimodalen Sprachmodellen und GUI‑Agenten zeigen einen deutlichen „Reasoning‑Acting“-Gap. Während die Agenten über starke Planungsfähigkeiten verfügen, bleiben die feingranularen GUI‑Manipulationen eine große Herausforderung – ein Ergebnis, das die Notwendigkeit weiterer Forschung unterstreicht.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.