EntroPIC: Stabilisiertes Langzeit-Training von LLMs durch Entropie-Kontrolle
Die langfristige Schulung großer Sprachmodelle (LLMs) erfordert eine stabile Exploration, damit das Modell nicht in suboptimale Verhaltensmuster abrutscht. Entropie spielt dabei eine zentrale Rolle, weil sie die Explora…