Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Außerhalb”
Forschung

<p>Offline-Reinforcement-Learning kann durch eine pessimistische Hilfspolitik deutlich effizienter werden.</p> <p>Beim Offline‑RL lernt ein Agent aus vorab gesammelten Daten, ohne dabei in Echtzeit zu handeln. Dieses Vorgehen vermeidet gefährliche oder ineffiziente Interaktionen, bringt jedoch ein Problem mit sich: Während des Lernens werden häufig Aktionen gewählt, die außerhalb des Trainingsdatensatzes liegen. Diese „Out‑of‑Distribution“-Aktionen führen zu Annäherungsfehlern, die sich akkumulieren und die

arXiv – cs.AI