Forschung
RAGEN-2 enthüllt: Warum Entropie bei LLM-Agenten trügt – neue MI-Metrik rettet die Leistung
Die Schulung von mehrstufigen LLM-Agenten im Bereich Reinforcement Learning ist von Natur aus instabil. Dabei entscheidet die Qualität des…
arXiv – cs.LG