EntroPIC: Stabilisiertes Langzeit-Training von LLMs durch Entropie-Kontrolle
Die langfristige Schulung großer Sprachmodelle (LLMs) erfordert eine stabile Exploration, damit das Modell nicht in suboptimale Verhaltensmuster abrutscht. Entropie spielt dabei eine zentrale Rolle, weil sie die Exploration steuert und vor einem vorzeitigen Zusammenbruch in schlechte Lösungen schützt.