Forschung arXiv – cs.AI

Selbstvertrauen in RL führt zu Fehlern – asymmetrische Strafen helfen

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren etabliert, um die Rechenleistung zu steigern. Doch die gängigen RLVR‑Algorithmen…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren etabliert, um die Rechenleistu…
  • Doch die gängigen RLVR‑Algorithmen zeigen ein bekanntes Problem: Sie verbessern zwar die Pass@1‑Genauigkeit, indem sie die Sampling‑Verteilung schärfen, gleichzeitig sch…
  • Die Ursache liegt in der einheitlichen Bestrafung aller Fehler.

In der Welt der großen Sprachmodelle (LLMs) hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als führendes Verfahren etabliert, um die Rechenleistung zu steigern. Doch die gängigen RLVR‑Algorithmen zeigen ein bekanntes Problem: Sie verbessern zwar die Pass@1‑Genauigkeit, indem sie die Sampling‑Verteilung schärfen, gleichzeitig schrumpfen die Grenzen des Modells und die Vielfalt der generierten Antworten nimmt ab.

Die Ursache liegt in der einheitlichen Bestrafung aller Fehler. Aktuelle Ansätze – sei es das Filtern von Daten nach Schwierigkeitsgrad oder die Normalisierung von Vorteilen – behandeln sämtliche falschen Rollouts innerhalb einer Gruppe gleich. Dadurch können übermäßig selbstsichere Fehler, die durch den RL‑Prozess fälschlicherweise verstärkt wurden, weiter bestehen und den Wahrscheinlichkeitsraum dominieren, während valide explorative Pfade unterdrückt werden.

Um dieses Phänomen zu bekämpfen, wurde die Asymmetric Confidence‑aware Error Penalty (ACE) entwickelt. ACE nutzt einen pro‑Rollout‑basierten Confidence‑Shift‑Metrik‑Wert, ci = log(πθ(yi|x) / πref(yi|x)), um negative Vorteile dynamisch zu modulieren. Theoretisch lässt sich der Gradient von ACE in einen selektiven Regularisierer für übermäßig selbstsichere Fehler und einen residualen Term zerlegen, der die Stärke des Regularisierers teilweise abschwächt.

In umfangreichen Experimenten wurden Qwen2.5‑Math‑7B, Qwen3‑8B‑Base und Llama‑3.1‑8B‑Instruct auf dem DAPO‑Math‑17K‑Datensatz mit GRPO und DAPO im VERL‑Framework feinabgestimmt. Die Modelle wurden anschließend auf MATH‑500 und AIME getestet. ACE zeigte signifikante Verbesserungen bei der Pass@1‑Genauigkeit, während die Vielfalt der generierten Antworten erhalten blieb – ein deutlicher Fortschritt gegenüber herkömmlichen RLVR‑Methoden.

Diese Ergebnisse unterstreichen, dass asymmetrische Fehlerbestrafungen ein vielversprechender Ansatz sind, um die Balance zwischen Genauigkeit und Exploration in RL‑gestützten Sprachmodellen zu optimieren.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.