RAGEN-2 enthüllt: Warum Entropie bei LLM-Agenten trügt – neue MI-Metrik rettet die Leistung
Die Schulung von mehrstufigen LLM-Agenten im Bereich Reinforcement Learning ist von Natur aus instabil. Dabei entscheidet die Qualität des Denkens unmittelbar über die Erreichung der Aufgabenziele. Häufig wird die Entro…