Suche nach Policy Gradient

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

In einer aktuellen Veröffentlichung auf arXiv wird ein bedeutender Fortschritt im Bereich des Offline‑Reinforcement‑Learning (RL) vorgestel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Hybrid‑RL‑Ansatz verbessert TokenCom in Mehrbenutzer‑WLANs

TokenCom ist ein neues Kommunikationsparadigma, bei dem Tokens die einheitlichen Bausteine multimodaler Datenübertragung und -verarbeitung…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Quantenreinforcement Learning optimiert Portfolios dynamisch – vielversprechend

Ein neues Forschungsprojekt zeigt, dass Quantenreinforcement Learning (QRL) die dynamische Portfoliooptimierung auf ein neues Level hebt. D…

arXiv – cs.LG 28.01.2026 05:00

Forschung

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

In der Welt der großen Sprachmodelle (LLMs) dominiert das Reinforcement Learning aus menschlichem Feedback (RLHF) als bevorzugte Methode, u…

arXiv – cs.LG 21.01.2026 05:00

Forschung

RL macht Wettermodelle adaptiver: Zustandsabhängige Parameter

Wetter- und Klimamodelle nutzen seit Jahrzehnten Parameterisierungen, um Prozesse zu beschreiben, die zu klein skaliert sind, um sie direkt…

arXiv – cs.LG 09.01.2026 05:00

Forschung

Neues GPG-Theorem: Optimierung von Transformer-Politiken für LLMs

Ein neues Forschungsdokument auf arXiv (ID 2512.10365v1) stellt das Generalized Policy Gradient (GPG)-Theorem vor, das speziell für Transfo…

arXiv – cs.LG 12.12.2025 05:00

Forschung

DDPG verbessert: Separates Replay für Actor und Critic steigert Leistung

In der Welt der kontinuierlichen Steuerungsaufgaben hat ein neues Verfahren namens Decoupled Prioritized Experience Replay (DPER) die Aufme…

arXiv – cs.LG 08.12.2025 05:00

Forschung

Neue Methode: Soft Q-basierte Diffusion-Fine‑Tuning verbessert Bildgenerierung

Diffusionsmodelle sind bekannt für ihre Fähigkeit, hochwahrscheinliche Bilder zu erzeugen, stoßen jedoch häufig an die Grenzen, wenn sie an…

arXiv – cs.LG 05.12.2025 05:00

Forschung

Rationale Policy Gradient: Mehr Robustheit und Vielfalt in Multi-Agenten‑Lernen

In der Welt der Multi-Agenten‑KI hat ein neues Verfahren namens Rationality‑Preserving Policy Optimization (RPO) die Spielregeln neu defini…

arXiv – cs.AI 13.11.2025 05:00

Forschung

Trajektorienwert abhängig vom Lernalgorithmus – Policy‑Gradient‑Erkenntnisse

In einer neuen Untersuchung auf arXiv (2511.07878v1) wird gezeigt, dass der Wert einer Trajektorie in der Policy‑Gradient‑Kontrolle stark v…

arXiv – cs.LG 12.11.2025 05:00

Forschung

Deep Reinforcement Learning optimiert Ressourcen in heterogenen Funknetzen

In heterogenen Funknetzen (HetNets) gestaltet sich die dynamische Zuteilung von Ressourcen wie Strom, Bandbreite und Zeitplänen unter wechs…

arXiv – cs.LG 01.10.2025 05:00

Forschung

Reinforcement Learning: DDPG mit TiDE schlägt Buy-and-Hold bei Asset Allocation

In einer aktuellen Veröffentlichung auf arXiv wird gezeigt, wie Deep‑Reinforcement‑Learning die klassische Problemstellung der optimalen Ve…

arXiv – cs.AI 29.08.2025 05:00

Forschung

Reinforcement Learning initiiert Variationsquantumalgorithmen – Barren Plateaus überwunden

Variationsquantumalgorithmen (VQAs) gelten als vielversprechende Methode, um aktuelle Quantencomputer für Optimierungsaufgaben, Chemiesimul…

arXiv – cs.LG 27.08.2025 05:00

Forschung

FedRAIN-Lite: Federated RL verbessert numerische Wettermodelle

In der Klimaforschung sind die Parameter, die die kleinsten Wetterphänomene in Modellen abbilden, bislang fest programmiert und offline ang…

arXiv – cs.LG 21.08.2025 05:00

Finde Modelle, Firmen und Themen

Offline RL: Neue Theorie für parametrische Policies in großen Aktionsräumen

Hybrid‑RL‑Ansatz verbessert TokenCom in Mehrbenutzer‑WLANs

Quantenreinforcement Learning optimiert Portfolios dynamisch – vielversprechend

GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung

RL macht Wettermodelle adaptiver: Zustandsabhängige Parameter

Neues GPG-Theorem: Optimierung von Transformer-Politiken für LLMs

DDPG verbessert: Separates Replay für Actor und Critic steigert Leistung

Neue Methode: Soft Q-basierte Diffusion-Fine‑Tuning verbessert Bildgenerierung

Rationale Policy Gradient: Mehr Robustheit und Vielfalt in Multi-Agenten‑Lernen

Trajektorienwert abhängig vom Lernalgorithmus – Policy‑Gradient‑Erkenntnisse

Deep Reinforcement Learning optimiert Ressourcen in heterogenen Funknetzen

Reinforcement Learning: DDPG mit TiDE schlägt Buy-and-Hold bei Asset Allocation

Reinforcement Learning initiiert Variationsquantumalgorithmen – Barren Plateaus überwunden

FedRAIN-Lite: Federated RL verbessert numerische Wettermodelle

🍪 Cookie-Einstellungen