Neues System wandelt Skizzen in präzise Diagramme um – ohne Training
Forscher haben ein neues Verfahren entwickelt, das grobe Handskizzen in exakt strukturierte Diagramme umwandelt. Während herkömmliche Diffusionsmodelle vor allem bei fotorealistischer Bildgenerierung glänzen, stoßen sie bei der präzisen Ausrichtung, der symbolischen Struktur und der räumlichen Genauigkeit von Flussdiagrammen an ihre Grenzen.
Das System, genannt „See it. Say it. Sorted.“ – und dabei völlig ohne zusätzliche Trainingsdaten – kombiniert ein Vision‑Language‑Modell (VLM) mit mehreren Large‑Language‑Modellen (LLMs). Durch einen iterativen Prozess schlägt das VLM zunächst qualitative, relationale Änderungen vor. Anschließend erzeugen verschiedene LLM‑Kandidaten SVG‑Updates mit unterschiedlichen Strategien – von konservativ bis aggressiv, alternativ und fokussiert. Ein weiteres VLM wählt den besten Vorschlag aus, sodass die Qualität schrittweise stabil verbessert wird.
Der Ansatz legt den Fokus auf qualitative Logik statt auf fragile numerische Schätzungen. Dadurch bleiben globale Einschränkungen wie Ausrichtung und Verknüpfung erhalten, und der Prozess lässt sich leicht in einen menschlichen Arbeitsablauf einbinden. In Tests mit zehn Skizzen aus veröffentlichten Flussdiagrammen konnte das System die Anordnung und Struktur deutlich genauer rekonstruieren als zwei führende, geschlossene Bildgenerierungs‑LLMs (GPT‑5 und Gemini‑2.5‑Pro). Es setzt dabei keine unerwünschten Texte ein und kann komplexe Symbole wie mehrköpfige Pfeile korrekt darstellen.
Da die Ausgaben programmatische SVG‑Dateien sind, lässt sich die Technik problemlos in Präsentationssoftware wie PowerPoint integrieren und über APIs erweitern. Zudem kann sie mit verbesserten Prompt‑Strategien und fachspezifischen Tools weiter optimiert werden. Der komplette Code ist frei verfügbar unter GitHub.