KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Variance Reduction”

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als führendes Verfahren zur Verbesserung der Argumentationsfähigkeit…

arXiv – cs.LG 16.02.2026 05:00

Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) leidet häufig unter Trainingskollapsen bei Aufgaben mit langen Zeithorizonten, w…

arXiv – cs.LG 10.02.2026 05:00

FedAdaVR: Adaptive Varianzreduktion stärkt Learning eingeschränkter Teilnahme

In der Welt des Federated Learning (FL) stellen Heterogenität, Rauschverhalten der Gradienten, Client‑Drift und vor allem die eingeschränkt…

arXiv – cs.LG 02.02.2026 05:00

<p>Effiziente Varianzreduktion verbessert Wertbasierte Prozessverifikatoren</p> <p>Große Sprachmodelle (LLMs) haben in vielen Bereichen beeindruckende Erfolge erzielt, doch ihre Fähigkeit, komplexe Aufgaben wie Mathematik zu lösen, bleibt ein zentrales Problem. Wertbasierte Prozessverifikatoren, die die Wahrscheinlichkeit abschätzen, dass ein Teil einer Argumentationskette zum korrekten Ergebnis führt, gelten als vielversprechende Lösung. Ihre Wirksamkeit wird jedoch häufig durch Schätzfehler in den Trainin

arXiv – cs.AI 15.08.2025 05:00