NOIR schützt Code-Generierung vor Cloud-Überwachung – Open‑Source‑Lösungen

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Die Nutzung großer Sprachmodelle (LLMs) zur automatischen Code‑Generierung hat die Produktivität von Entwicklern stark erhöht – doch sie bringt gleichzeitig erhebliche Risiken für geistiges Eigentum und Datensicherheit mit sich. Denn wenn ein Cloud‑Dienst die Eingabeaufforderungen und den erzeugten Code einsehen kann, besteht die Gefahr, dass sensible Informationen in kommerziellen Systemen offengelegt werden.

Um diesem Problem entgegenzuwirken, präsentiert die Forschung NOIR, ein neuartiges Framework, das die Privatsphäre von Kundenanfragen und generiertem Code vor der Cloud schützt. NOIR arbeitet vollständig lokal: Auf dem Client werden die Prompt‑Embeddings mit einem Encoder verschlüsselt und an die Cloud gesendet. Dort werden sie von einem LLM angereichert, bevor sie zurück an den Client gelangen, wo ein Decoder den Code aus den verfeinerten Embeddings erzeugt.

Das Herzstück von NOIR ist eine lokale Differential‑Privacy‑Schicht auf Token‑Embedding‑Ebene sowie ein datunabhängiger, randomisierter Tokenizer, der auf dem Client ausgeführt wird. Diese Mechanismen verhindern, dass die Cloud aus den übermittelten Embeddings Rückschlüsse auf die ursprünglichen Prompts oder den generierten Code ziehen kann, und schützen vor Rekonstruktions- und Häufigkeitsanalyseangriffen.

Umfangreiche Tests mit Open‑Source‑LLMs zeigen, dass NOIR die bestehenden Ansätze deutlich übertrifft. Auf den Benchmarks Evalplus (MBPP und HumanEval) erreicht NOIR Pass@1‑Raten von 76,7 % bzw. 77,4 %, während BigCodeBench nur einen minimalen Verlust von 1,77 % gegenüber dem ursprünglichen LLM aufweist. Damit demonstriert NOIR, dass hohe Code‑Qualität und starke Privatsphäre gleichzeitig realisierbar sind.

Ähnliche Artikel