Suche nach Off-Policy | meineki.news

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als leistungsstarkes Paradigma für die Verbesserung der komplexen Denkfähigk…

arXiv – cs.AI 02.03.2026 05:00

Forschung

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Ein neues Verfahren namens Batch Adaptation Policy Optimization (BAPO) verspricht, die Effizienz von großen Sprachmodellen nach dem Trainin…

arXiv – cs.AI 25.02.2026 05:00

Forschung

Reinforcement‑Learning-Agent behebt Verteilungsunterschiede für Off‑Policy‑SFT

Große Sprachmodelle haben in den letzten Jahren enorme Fortschritte erzielt, doch ihre Anpassung an spezifische Anwendungsfälle erfolgt häu…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Optimistisches DRO löst Kollaps bei Offline-Generativen Empfehlungen

In der Welt der generativen Empfehlungen hat sich das policy‑basierte Reinforcement Learning (RL) als führendes Verfahren etabliert, um Nut…

arXiv – cs.LG 12.02.2026 05:00

Forschung

RL für Mensch‑Roboter‑Kollaboration: Off‑Policy Evaluation ohne Live‑Interaktion

Reinforcement Learning (RL) verspricht, Entscheidungsprozesse in der realen Welt zu revolutionieren, indem autonome Agenten aus Erfahrung l…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Ein einheitlicher Blick auf Abdeckung in linearer Off-Policy-Bewertung

Off‑Policy‑Evaluation (OPE) ist ein zentrales Problem im Reinforcement Learning, bei dem die Zielwertfunktion anhand von Daten, die unter e…

arXiv – cs.LG 28.01.2026 05:00

Forschung

Neues Verfahren steigert GUI-Agentenleistung durch Bi-Level-Expert-Assimilation

Visionäre KI-Modelle wie GPT-4 und Claude 3.5 haben die Art und Weise, wie wir mit Computern interagieren, revolutioniert. Doch die meisten…

arXiv – cs.AI 12.01.2026 05:00

Forschung

SEMDICE: Off-Policy-Algorithmus maximiert Zustandsentropie aus beliebigen Datensätzen

In der neuesten Veröffentlichung auf arXiv (2512.10042v1) präsentiert das Forschungsteam einen innovativen Ansatz namens SEMDICE, der die E…

arXiv – cs.LG 12.12.2025 05:00

Forschung

NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten

In der Forschung zu großen Sprachmodellen (LLMs) gewinnen Agenten, die über lange Zeiträume mit ihrer Umgebung interagieren, immer mehr an…

arXiv – cs.LG 05.12.2025 05:00

Forschung

Deterministische Auktionen: Stochastische Modelle für Off‑Policy Evaluation

Online‑A/B‑Tests gelten als Goldstandard für die Bewertung neuer Werbestrategien, verbrauchen jedoch enorme Ressourcen und bergen das Risik…

arXiv – cs.LG 04.12.2025 05:00

Forschung

Neues PPO-Verfahren stabilisiert Multi‑Turn-Agenten-Training

Proximal Policy Optimization (PPO) ist ein beliebtes Verfahren zum Trainieren großer Sprachmodelle in mehrstufigen Dialogen und komplexen D…

arXiv – cs.LG 27.11.2025 05:00

Forschung

Probe‑Performance von LLMs: Wie off‑Policy‑Daten die Generalisierung beeinflussen

Die Überwachung von großen Sprachmodellen (LLMs) wird zunehmend durch sogenannte Probe‑Methoden unterstützt, die auf der Erkennung in der I…

arXiv – cs.AI 24.11.2025 05:00

Forschung

Verhaltensoptimierung senkt Varianz bei Off‑Policy RL

Ein neues Ergebnis aus der Off‑Policy‑Evaluation zeigt, dass gezielt gestaltete Verhaltenspolitiken Daten liefern können, die zu deutlich g…

arXiv – cs.LG 17.11.2025 05:00

Forschung

On-Policy RL trifft Off-Policy Experten durch dynamisches Gewicht

Die beiden führenden Post‑Training‑Methoden für große Sprachmodelle – Supervised Fine‑Tuning (SFT) und Reinforcement Learning (RL) – werden…

arXiv – cs.LG 18.08.2025 05:00

Forschung

Nested-ReFT: Effizientes RL für das Feintuning großer Sprachmodelle

Ein neues arXiv-Papier mit der Bezeichnung Nested-ReFT präsentiert einen innovativen Ansatz, um das Feintuning großer Sprachmodelle (LLMs)…

arXiv – cs.LG 15.08.2025 05:00

Finde Modelle, Firmen und Themen

Recycling-Fehler: RLVR-Exploration durch feinkörnige Off‑Policy‑Anleitung

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %

Reinforcement‑Learning-Agent behebt Verteilungsunterschiede für Off‑Policy‑SFT

Optimistisches DRO löst Kollaps bei Offline-Generativen Empfehlungen

RL für Mensch‑Roboter‑Kollaboration: Off‑Policy Evaluation ohne Live‑Interaktion

Ein einheitlicher Blick auf Abdeckung in linearer Off-Policy-Bewertung

Neues Verfahren steigert GUI-Agentenleistung durch Bi-Level-Expert-Assimilation

SEMDICE: Off-Policy-Algorithmus maximiert Zustandsentropie aus beliebigen Datensätzen

NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten

Deterministische Auktionen: Stochastische Modelle für Off‑Policy Evaluation

Neues PPO-Verfahren stabilisiert Multi‑Turn-Agenten-Training

Probe‑Performance von LLMs: Wie off‑Policy‑Daten die Generalisierung beeinflussen

Verhaltensoptimierung senkt Varianz bei Off‑Policy RL

On-Policy RL trifft Off-Policy Experten durch dynamisches Gewicht

Nested-ReFT: Effizientes RL für das Feintuning großer Sprachmodelle

🍪 Cookie-Einstellungen

BAPO: Off‑Policy RL steigert Effizienz von LLMs um 12,5 %