DUALGAUGE: Automatisiertes Benchmarking für sichere und korrekte Codegenerierung
In einer Zeit, in der große Sprachmodelle (LLMs) und autonome Coding‑Agenten immer häufiger eingesetzt werden, um Software zu erstellen, bleibt die Gewährleistung von Sicherheit und funktionaler Korrektheit ein zentrale…