KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Gradientenvarianz”

Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, w…

arXiv – cs.LG 10.02.2026 05:00

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

In der Welt der großen Sprachmodelle (LLMs) dominiert das Reinforcement Learning aus menschlichem Feedback (RLHF) als bevorzugte Methode, u…

arXiv – cs.LG 21.01.2026 05:00

Trajektorienwert abhängig vom Lernalgorithmus – Policy‑Gradient‑Erkenntnisse

In einer neuen Untersuchung auf arXiv (2511.07878v1) wird gezeigt, dass der Wert einer Trajektorie in der Policy‑Gradient‑Kontrolle stark v…

arXiv – cs.LG 12.11.2025 05:00