TikZilla: KI erzeugt hochwertige TikZ-Programme mit großen Daten und RL

Wissenschaftler nutzen immer häufiger große Sprachmodelle, um komplexe Grafiken aus Textbeschreibungen zu generieren. Dabei kommt TikZ – ein LaTeX-Paket zur präzisen Darstellung wissenschaftlicher Bilder – häufig zum Einsatz. Die bisher verfügbaren Datensätze für Text‑zu‑TikZ sind jedoch zu klein und von geringer Qualität, was zu Fehlern wie Schleifen, irrelevanten Inhalten oder falschen räumlichen Beziehungen führt.

Um diese Probleme zu beheben, hat ein Forschungsteam das neue Dataset DaTikZ‑V4 veröffentlicht. Es ist mehr als viermal größer als sein Vorgänger und enthält zusätzlich von Sprachmodellen generierte Bildbeschreibungen, die die Komplexität von TikZ besser abbilden. Mit diesem Datensatz trainiert das Team TikZilla, eine Familie kleiner Open‑Source‑Qwen‑Modelle (3 B und 8 B), die zunächst mit Supervised Fine‑Tuning (SFT) und anschließend mit Reinforcement Learning (RL) optimiert werden.

Für das RL nutzt das Team einen Bildencoder, der über inverse Grafik trainiert wurde, um semantisch treue Belohnungen zu liefern. In umfangreichen menschlichen Bewertungen mit über 1.000 Urteilen erzielte TikZilla einen Qualitätszuwachs von 1,5 bis 2 Punkten auf einer 5‑Punkte‑Skala. Es übertrifft GPT‑4o um 0,5 Punkte und erreicht die gleiche Bildqualität wie GPT‑5, obwohl es deutlich kleiner ist. Der Code, die Daten und die Modelle werden öffentlich zugänglich gemacht.

🍪 Cookie-Einstellungen