CVeDRL: Effizienter Code-Checker mit Difficulty‑Aware Reinforcement Learning

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Welt der KI‑gestützten Code‑Generierung spielt die Nachverifikation von Code‑Verifikatoren eine entscheidende Rolle. Traditionelle Methoden, die auf überwachten Feinabstimmungen basieren, stoßen jedoch an ihre Grenzen: Datenknappheit, hohe Fehlerquoten und ineffiziente Inferenzzeiten machen sie unpraktisch.

Reinforcement Learning (RL) bietet hier einen vielversprechenden Ansatz, indem es Modelle durch ausführungsgesteuerte Belohnungen optimiert – ohne dass gelabelte Daten benötigt werden. Erste Experimente zeigen jedoch, dass ein naiver RL‑Ansatz, der ausschließlich auf Funktionsrewards setzt, bei schwierigen Code‑Zweigen und -Beispielen versagt.

Die Autoren analysieren theoretisch, wie Branch‑Coverage, Sample‑Difficulty, syntaktische und funktionale Korrektheit gemeinsam als RL‑Belohnungen modelliert werden können. Durch die Optimierung dieser Signale lässt sich die Zuverlässigkeit von unit‑test‑basierten Verifikatoren deutlich steigern.

Aufbauend auf dieser Analyse entwerfen sie syntax‑ und funktionsbewusste Belohnungen und führen ein branch‑ und sample‑difficulty‑aware RL ein. Dabei nutzen sie exponentielle Reward‑Shaping‑Techniken und statische Analysemetriken, um die Belohnungen gezielt zu steuern.

Das Ergebnis ist CVeDRL – ein Modell mit lediglich 0,6 Milliarden Parametern, das die branchenführende Leistung erreicht. Im Vergleich zu GPT‑3.5 erzielt es bis zu 28,97 % höhere Pass‑Raten und 15,08 % mehr Branch‑Coverage, während die Inferenzgeschwindigkeit mehr als 20‑fach schneller ist als bei konkurrierenden Baselines.

Der Quellcode ist öffentlich auf GitHub verfügbar: https://github.com/LIGHTCHASER1/CVeDRL.git.

Ähnliche Artikel