Suche nach Offline Reinforcement Learning

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden. Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI 02.03.2026 05:00

Forschung

Offline RL & Cross-Embodiment: Robotik‑Policies aus heterogenen Datensätzen

In einer wegweisenden Studie wird gezeigt, wie Offline‑Reinforcement‑Learning (RL) in Kombination mit Cross‑Embodiment‑Learning die Entwick…

arXiv – cs.AI 23.02.2026 05:00

Forschung

Neue Flow‑Matching‑Methode für Offline‑RL mit diskreten Aktionen

Forscher haben Flow Matching auf diskrete Aktionsräume ausgeweitet, um Offline‑Reinforcement‑Learning in breiteren Szenarien zu ermöglichen…

arXiv – cs.LG 09.02.2026 05:00

Forschung

PCL-Reasoner-V1.5: Fortschritt im mathematischen Denken mit Offline RL

Die neueste Version des PCL-Reasoner, ein 32‑Billionen‑Parameter‑LLM, setzt neue Maßstäbe im mathematischen Problemlösen. Basierend auf dem…

arXiv – cs.LG 22.01.2026 05:00

Forschung

CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL

Offline-Reinforcement‑Learning (RL) nutzt statische Datensätze, um Agenten zu trainieren, ist jedoch anfällig für Backdoor‑Angriffe. Bisher…

arXiv – cs.LG 16.01.2026 05:00

Forschung

Quantum Decision Transformer: 2000 % Leistungssteigerung offline Ein neues Modell für das Offline‑Reinforcement‑Learning, der Quantum Decision Transformer (QDT), hat in einer aktuellen Studie auf arXiv einen Durchbruch erzielt. Während herkömmliche Decision Transformer (DT) bei langen Zeithorizonten und komplexen Zustands‑Aktions‑Abhängigkeiten an ihre Grenzen stoßen, nutzt QDT quantum‑inspiriertes Design, um diese Schwächen zu überwinden.Der QDT kombiniert zwei zentrale Bausteine: eine Quantu

arXiv – cs.AI 18.12.2025 05:00

Forschung

Bayessches Offline‑RL ohne Konservatismus erreicht neue Rekorde

Ein neues Forschungsergebnis aus dem Bereich des Offline‑Reinforcement Learning (RL) zeigt, dass ein bayesscher Ansatz ohne konservative Ei…

arXiv – cs.LG 05.12.2025 05:00

Forschung

DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen

In der Welt des Offline-Reinforcement-Learnings (RL) ist die Datenabdeckung oft ein entscheidendes Problem. Während klassische Offline‑RL-M…

arXiv – cs.LG 03.12.2025 05:00

Forschung

DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg

In der Forschung zum Cross‑Domain Offline Reinforcement Learning geht es darum, einen Agenten für ein Zielumfeld zu trainieren, indem sowoh…

arXiv – cs.LG 03.12.2025 05:00

Forschung

SAM steigert Robustheit von Offline-RL bei Datenkorruption

Offline-Reinforcement-Learning (RL) ist in der Praxis stark anfällig für Datenkorruption. Selbst die bislang robustesten Algorithmen scheit…

arXiv – cs.LG 25.11.2025 05:00

Forschung

Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung

In der Offline‑Reinforcement‑Learning‑Forschung ist die Überbewertung von Werten durch Aktionen außerhalb der Trainingsverteilung ein zentr…

arXiv – cs.LG 13.11.2025 05:00

Forschung

Neuer Transformer für Offline RL: Präzise Zielausrichtung bei gewünschter Rendite

Offline-Reinforcement-Learning hat in den letzten Jahren bemerkenswerte Fortschritte in Bereichen wie Robotik, autonomem Fahren und medizin…

arXiv – cs.LG 25.08.2025 05:00

Forschung

Cold‑RL: KI‑gesteuerte Cache‑Entfernung für NGINX verbessert Trefferquote um 146 %

Cold‑RL ist die erste Offline‑Reinforcement‑Learning‑Lösung, die die klassische LRU‑Cache‑Entfernung in NGINX ersetzt. Durch den Einsatz ei…

arXiv – cs.LG 19.08.2025 05:00

Finde Modelle, Firmen und Themen

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

Offline RL & Cross-Embodiment: Robotik‑Policies aus heterogenen Datensätzen

Neue Flow‑Matching‑Methode für Offline‑RL mit diskreten Aktionen

PCL-Reasoner-V1.5: Fortschritt im mathematischen Denken mit Offline RL

CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL

Bayessches Offline‑RL ohne Konservatismus erreicht neue Rekorde

DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen

DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg

SAM steigert Robustheit von Offline-RL bei Datenkorruption

Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung

Neuer Transformer für Offline RL: Präzise Zielausrichtung bei gewünschter Rendite

Cold‑RL: KI‑gesteuerte Cache‑Entfernung für NGINX verbessert Trefferquote um 146 %

🍪 Cookie-Einstellungen

Cold‑RL: KI‑gesteuerte Cache‑Entfernung für NGINX verbessert Trefferquote um 146 %