SVRepair: Multimodales APR nutzt strukturierte visuelle Analyse
In der Welt der automatisierten Programmreparatur (APR) hat ein neues Verfahren namens SVRepair die Messlatte höher gelegt. Durch die Kombination von Sprach- und Bildverarbeitung schafft es SVRepair, Fehler in Software nicht nur anhand von Quellcode, sondern auch unter Einbeziehung visueller Artefakte wie Screenshots und Kontrollflussdiagrammen zu erkennen und zu beheben.
Traditionelle APR-Ansätze nutzen meist nur Textdaten und vernachlässigen damit wichtige visuelle Hinweise, die in vielen Bug‑Reports enthalten sind – etwa Layout‑Probleme oder fehlende UI‑Elemente. Das direkte Einbinden von Bilddaten führt häufig zu Kontextverlust und Rauschen, wodurch multimodale Sprachmodelle Schwierigkeiten haben, die visuellen Beobachtungen präzise in Fehlerlokalisierung und Patch‑Generierung zu übersetzen.
SVRepair löst dieses Problem, indem es zunächst ein Vision‑Language‑Modell namens Structured Visual Representation (SVR) fein‑tuned. SVR wandelt heterogene Bildartefakte in einen semantischen Szenengraphen um, der GUI‑Elemente und ihre strukturellen Beziehungen (z. B. Hierarchien) erfasst. Dieser normalisierte, code‑relevante Kontext wird anschließend von einem Coding‑Agenten genutzt, um Fehler zu lokalisieren und Korrekturen zu synthetisieren. Zusätzlich führt SVRepair eine iterative Segmentierungsstrategie ein, die den Bildinput schrittweise auf bug‑zentrierte Regionen reduziert, um irrelevante Informationen zu unterdrücken und Halluzinationen zu minimieren.
Die Ergebnisse sprechen für sich: Auf dem Benchmark SWE‑Bench M erreicht SVRepair eine Genauigkeit von 36,47 %, auf MMCode 38,02 % und auf CodeVision beeindruckende 95,12 %. Damit demonstriert SVRepair einen deutlichen Fortschritt gegenüber bestehenden APR‑Methoden und eröffnet neue Möglichkeiten für die automatisierte Fehlerbehebung in komplexen Softwareumgebungen.