CodeX-Verify: Multi-Agent-System entdeckt Bugs und Mehrfachschwachstellen schneller
Moderne Sprachmodelle erzeugen häufig fehlerhaften Code: 29,6 % der „gelösten“ Patches im SWE‑Bench scheitern, 62 % der Lösungen im BaxBench enthalten Schwachstellen, und bestehende Werkzeuge erkennen lediglich 65 % der Fehler bei gleichzeitig 35 % Fehlalarmen. Mit CodeX‑Verify, einem Multi‑Agenten‑System, wird dieses Problem adressiert.