EntroPIC: Stabilisiertes Langzeit-Training von LLMs durch Entropie-Kontrolle
Die langfristige Schulung großer Sprachmodelle (LLMs) erfordert eine stabile Exploration, damit das Modell nicht in suboptimale Verhaltensmuster abrutscht. Entropie spielt dabei eine zentrale Rolle, weil sie die Exploration steuert und vor einem vorzeitigen Zusammenbruch in schlechte Lösungen schützt.
Aktuelle Reinforcement‑Learning‑Methoden haben Schwierigkeiten, ein angemessenes Entropieniveau zu halten, da der Trainingsprozess sowohl positive als auch negative Beispiele enthält, die die Entropie in unterschiedlichen Schritten unterschiedlich beeinflussen. Um dieses Problem zu lösen, präsentiert das neue Verfahren EntroPIC – Entropy Stabilization via Proportional‑Integral Control. Es passt die Gewichtung von positiven und negativen Samples dynamisch an, indem es die Verlustkoeffizienten in Echtzeit justiert.
Durch diese adaptive Regelung bleibt die Entropie während des gesamten Trainings konstant, was eine effiziente Exploration und einen stetigen Fortschritt garantiert. Die Autoren liefern eine umfassende theoretische Analyse für on‑policy und off‑policy Lernumgebungen und zeigen, dass EntroPIC die Entropie zuverlässig steuert, selbst bei groß angelegten LLM‑Trainings.
Experimentelle Ergebnisse belegen, dass EntroPIC die gewünschten Entropieniveaus beibehält und damit stabile sowie optimale RL‑Trainingsprozesse für LLMs ermöglicht.