DUALGAUGE: Automatisiertes Benchmarking für sichere und korrekte Codegenerierung
In einer Zeit, in der große Sprachmodelle (LLMs) und autonome Coding‑Agenten immer häufiger eingesetzt werden, um Software zu erstellen, bleibt die Gewährleistung von Sicherheit und funktionaler Korrektheit ein zentrales Problem. Bestehende Benchmarks messen meist nur die Reduktion von Schwachstellen, vernachlässigen jedoch die Beibehaltung der Funktionalität oder bewerten Sicherheit und Korrektheit auf getrennten Datensätzen – ein Ansatz, der die notwendige gleichzeitige Bewertung untergräbt.