Suche nach Offline RL | meineki.news

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

In einer aktuellen Veröffentlichung auf arXiv wird ein bedeutender Fortschritt im Bereich des Offline‑Reinforcement‑Learning (RL) vorgestel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Offline RL & Cross-Embodiment: Robotik‑Policies aus heterogenen Datensätzen

In einer wegweisenden Studie wird gezeigt, wie Offline‑Reinforcement‑Learning (RL) in Kombination mit Cross‑Embodiment‑Learning die Entwick…

arXiv – cs.AI 23.02.2026 05:00

Forschung

ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung

ReFORM ist ein neu entwickeltes Verfahren für Offline-Reinforcement-Learning, das die häufigsten Stolpersteine in diesem Bereich elegant lö…

arXiv – cs.LG 06.02.2026 05:00

Forschung

PCL-Reasoner-V1.5: Fortschritt im mathematischen Denken mit Offline RL

Die neueste Version des PCL-Reasoner, ein 32‑Billionen‑Parameter‑LLM, setzt neue Maßstäbe im mathematischen Problemlösen. Basierend auf dem…

arXiv – cs.LG 22.01.2026 05:00

Forschung

Offline RL steuert CPU-Leistung für energieeffiziente Parallelanwendungen

Die Energieeffizienz hat sich zu einem entscheidenden Faktor im Design moderner Recheninfrastrukturen entwickelt. Durch die Integration von…

arXiv – cs.LG 19.01.2026 05:00

Forschung

CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL

Offline-Reinforcement‑Learning (RL) nutzt statische Datensätze, um Agenten zu trainieren, ist jedoch anfällig für Backdoor‑Angriffe. Bisher…

arXiv – cs.LG 16.01.2026 05:00

Forschung

<h1>LLM-gesteuerte Subgoal-Ordnung verbessert Offline RL bei sparsamen Belohnungen</h1> <p>Offline-Reinforcement-Learning (RL) lernt aus vorab gesammelten Datensätzen und vermeidet damit teure und riskante Online-Interaktionen. Bei Aufgaben mit langen Zeithorizonten und seltenen Belohnungen stößt es jedoch häufig an Grenzen. Traditionelle Offline‑RL‑Ansätze, die Aufgaben in Zwischenziele zerlegen, berücksichtigen meist nicht die zeitlichen Abhängigkeiten zwischen diesen Subzielen und setzen auf ungenaue Bel

arXiv – cs.LG 14.01.2026 05:00

Forschung

SPIN: Beschleunigt Offline RL in großen diskreten Aktionsräumen

In der Welt des Reinforcement Learning stellen diskrete kombinatorische Aktionsräume ein enormes Problem dar: die Suche nach einer gültigen…

arXiv – cs.LG 09.01.2026 05:00

Forschung

Offline RL: Skalierbare Modellbasierte Lernmethode mit Aktionsblöcken

Ein neues Verfahren namens Model-Based RL with Action Chunks (MAC) zeigt, dass modellbasiertes Reinforcement Learning auch bei sehr großen…

arXiv – cs.LG 10.12.2025 05:00

Forschung

DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen

In der Welt des Offline-Reinforcement-Learnings (RL) ist die Datenabdeckung oft ein entscheidendes Problem. Während klassische Offline‑RL-M…

arXiv – cs.LG 03.12.2025 05:00

Forschung

DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg

In der Forschung zum Cross‑Domain Offline Reinforcement Learning geht es darum, einen Agenten für ein Zielumfeld zu trainieren, indem sowoh…

arXiv – cs.LG 03.12.2025 05:00

Forschung

Offline‑RL als Subroutine für Online‑Lernen: Neue Studie zeigt Wirkung

Eine aktuelle Untersuchung auf arXiv präsentiert einen innovativen Ansatz, bei dem Offline‑Reinforcement‑Learning‑Algorithmen als Subroutin…

arXiv – cs.LG 02.12.2025 05:00

Forschung

Datensatz-Destillation: Leistung für Supervised Learning & Offline RL

Ein neues Verfahren zur Datensatz‑Destillation verspricht, die Leistung von Modellen zu erhalten, ohne die komplette Trainingsmenge zu verw…

arXiv – cs.LG 02.12.2025 05:00

Forschung

Re:Frame: Mit wenigen Experten‑Trajektorien Offline RL drastisch verbessern

Offline‑Reinforcement‑Learning (RL) kämpft häufig mit unvollständigen Daten, weil große Expertendatensätze schwer zu beschaffen sind. Dadur…

arXiv – cs.LG 28.08.2025 05:00

Forschung

Neuer Transformer für Offline RL: Präzise Zielausrichtung bei gewünschter Rendite

Offline-Reinforcement-Learning hat in den letzten Jahren bemerkenswerte Fortschritte in Bereichen wie Robotik, autonomem Fahren und medizin…

arXiv – cs.LG 25.08.2025 05:00

Finde Modelle, Firmen und Themen

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

Offline RL & Cross-Embodiment: Robotik‑Policies aus heterogenen Datensätzen

ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung

PCL-Reasoner-V1.5: Fortschritt im mathematischen Denken mit Offline RL

Offline RL steuert CPU-Leistung für energieeffiziente Parallelanwendungen

CS-GBA: Sample-basierter Gradient-Backdoor-Angriff auf Offline RL

SPIN: Beschleunigt Offline RL in großen diskreten Aktionsräumen

Offline RL: Skalierbare Modellbasierte Lernmethode mit Aktionsblöcken

DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen

DVDF: Dynamik‑ und Wertauswahl verbessert Offline RL über Domänen hinweg

Offline‑RL als Subroutine für Online‑Lernen: Neue Studie zeigt Wirkung

Datensatz-Destillation: Leistung für Supervised Learning & Offline RL

Re:Frame: Mit wenigen Experten‑Trajektorien Offline RL drastisch verbessern

Neuer Transformer für Offline RL: Präzise Zielausrichtung bei gewünschter Rendite

🍪 Cookie-Einstellungen