CodeX-Verify: Multi-Agent-System entdeckt Bugs und Mehrfachschwachstellen schneller
Moderne Sprachmodelle erzeugen häufig fehlerhaften Code: 29,6 % der „gelösten“ Patches im SWE‑Bench scheitern, 62 % der Lösungen im BaxBench enthalten Schwachstellen, und bestehende Werkzeuge erkennen lediglich 65 % der…