DUALGAUGE: Automatisiertes Benchmarking für sichere und korrekte Codegenerierung
In einer Zeit, in der große Sprachmodelle (LLMs) und autonome Coding‑Agenten immer häufiger eingesetzt werden, um Software zu erstellen, bleibt die Gewährleistung von Sicherheit und funktionaler Korrektheit ein zentrales Problem. Bestehende Benchmarks messen meist nur die Reduktion von Schwachstellen, vernachlässigen jedoch die Beibehaltung der Funktionalität oder bewerten Sicherheit und Korrektheit auf getrennten Datensätzen – ein Ansatz, der die notwendige gleichzeitige Bewertung untergräbt.
Mit DUALGAUGE wird das erste vollständig automatisierte Benchmarking‑Framework vorgestellt, das die Sicherheit und Korrektheit von LLM‑generiertem Code gleichzeitig und rigoros bewertet. Ergänzt wird das System durch DUALGAUGE‑BENCH, eine sorgfältig kuratierte Benchmark‑Suite, die vielfältige Programmieraufgaben enthält, jede mit manuell validierten Testsets für Sicherheit und Funktionalität. Diese Kombination sorgt für eine umfassende Abdeckung der Spezifikationsanforderungen.
Im Kern von DUALGAUGE steht ein agentischer Programmausführungsmechanismus, der den Code in isolierten Sandbox‑Umgebungen ausführt, sowie ein LLM‑basierter Evaluator, der sowohl die Korrektheit als auch das Verhalten hinsichtlich Schwachstellen im Vergleich zu den erwarteten Ergebnissen prüft. Durch gründliche Qualitätskontrollen von DUALGAUGE‑BENCH und die Validierung der Genauigkeit von DUALGAUGE konnte das System zuverlässig eingesetzt werden.
Die Anwendung von DUALGAUGE auf zehn führende LLMs über tausende Testszenarien hat kritische Lücken in der korrekten und sicheren Codegenerierung dieser Modelle aufgedeckt. Die Ergebnisse unterstreichen die Notwendigkeit eines integrierten Ansatzes, um die Sicherheit von KI‑generiertem Code in realen Anwendungen zu gewährleisten.