RPM-MCTS: Wissensabfrage Prozessbelohnung Monte-Carlo-Baum-Suche verbessert Code

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Nutzung von Baum-Suchverfahren hat die Fähigkeit großer Sprachmodelle zur Codegenerierung deutlich gesteigert. Dennoch bleiben die Bewertung von Zwischenschritten und die rechtzeitige Korrektur von Fehlern problematisch, was zu fehlerhaften Programmen und erhöhten Rechenkosten führt.

Mit dem neuen Ansatz RPM‑MCTS wird dieses Problem angegangen. Der Schlüssel liegt in der Kombination von Knowledge‑Retrieval als Prozessbelohnungsmodell mit Monte‑Carlo‑Tree‑Search. Durch die Abfrage einer Wissensdatenbank entfällt das aufwändige Training von Prozessbelohnungsmodellen.

Während der Expansionsphase filtert RPM‑MCTS mithilfe von Ähnlichkeitskriterien redundante Knoten heraus, sodass vielfältige Denkpfade entstehen. Zusätzlich nutzt das Verfahren Sandbox‑Ausführungsfeedback, um fehlerhafte algorithmische Schritte während der Generierung zu lokalisieren und gezielt zu korrigieren.

Umfangreiche Tests an vier öffentlichen Code‑Generierungsbenchmarks zeigen, dass RPM‑MCTS die aktuellen Spitzenreiter übertrifft und gleichzeitig etwa 15 % weniger Tokens verbraucht. Darüber hinaus führt eine vollständige Feinabstimmung des Basismodells mit den von RPM‑MCTS erzeugten Daten zu einer signifikanten Steigerung seiner Programmierfähigkeiten.

Ähnliche Artikel