KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “BaxBench”

CodeX-Verify: Multi-Agent-System entdeckt Bugs und Mehrfachschwachstellen schneller

Moderne Sprachmodelle erzeugen häufig fehlerhaften Code: 29,6 % der „gelösten“ Patches im SWE‑Bench scheitern, 62 % der Lösungen im BaxBenc…

arXiv – cs.AI 24.11.2025 05:00