KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Offline-Reinforcement-Learning”

MAGE: Mehrstufige Autoregressive Generierung revolutioniert Offline RL

In der Welt des Offline-Reinforcement-Learnings (RL) haben generative Modelle in den letzten Jahren stark an Bedeutung gewonnen, weil sie k…

arXiv – cs.LG 02.03.2026 05:00

<p>Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden.</p> <p>Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI 02.03.2026 05:00

ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung

ReFORM ist ein neu entwickeltes Verfahren für Offline-Reinforcement-Learning, das die häufigsten Stolpersteine in diesem Bereich elegant lö…

arXiv – cs.LG 06.02.2026 05:00

<h1>LLM-gesteuerte Subgoal-Ordnung verbessert Offline RL bei sparsamen Belohnungen</h1> <p>Offline-Reinforcement-Learning (RL) lernt aus vorab gesammelten Datensätzen und vermeidet damit teure und riskante Online-Interaktionen. Bei Aufgaben mit langen Zeithorizonten und seltenen Belohnungen stößt es jedoch häufig an Grenzen. Traditionelle Offline‑RL‑Ansätze, die Aufgaben in Zwischenziele zerlegen, berücksichtigen meist nicht die zeitlichen Abhängigkeiten zwischen diesen Subzielen und setzen auf ungenaue Bel

arXiv – cs.LG 14.01.2026 05:00

DROCO: Dual robuste Offline RL gegen Dynamikverschiebungen

In der Welt des Offline-Reinforcement-Learnings (RL) ist die Datenabdeckung oft ein entscheidendes Problem. Während klassische Offline‑RL-M…

arXiv – cs.LG 03.12.2025 05:00

SAM steigert Robustheit von Offline-RL bei Datenkorruption

Offline-Reinforcement-Learning (RL) ist in der Praxis stark anfällig für Datenkorruption. Selbst die bislang robustesten Algorithmen scheit…

arXiv – cs.LG 25.11.2025 05:00

Neuer Transformer für Offline RL: Präzise Zielausrichtung bei gewünschter Rendite

Offline-Reinforcement-Learning hat in den letzten Jahren bemerkenswerte Fortschritte in Bereichen wie Robotik, autonomem Fahren und medizin…

arXiv – cs.LG 25.08.2025 05:00