Suche nach Actor-Critic

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

Ein neues Pretraining-Verfahren für Actor‑Critic‑Algorithmen verspricht, die Lernzeit von Robotern drastisch zu verkürzen. Die Autoren stel…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Neuer Actor-Critic-Algorithmus löst Bi-Level-Reinforcement-Learning effizient

In einer kürzlich veröffentlichten Studie wird ein innovativer Ansatz für das Bi‑Level-Reinforcement‑Learning vorgestellt, der die bisherig…

arXiv – cs.LG 26.01.2026 05:00

Forschung

<h1>Hindsight Preference Replay steigert Multi-Objective RL mit CAPQL</h1> <p>In einem neuen Beitrag auf arXiv wird gezeigt, wie die Methode Hindsight Preference Replay (HPR) die Leistung von CAPQL, einem Präferenz-basierten Actor-Critic-Ansatz, in Multi-Objective Reinforcement Learning (MORL) deutlich verbessert. CAPQL nutzt Gewichtungsvektoren, um Agenten auf vektorielle Belohnungen zu optimieren, beschränkt jedoch die Nutzung von Daten auf die Präferenzen, unter denen sie gesammelt wurden. HPR ergänzt di

arXiv – cs.LG 21.01.2026 05:00

Forschung

Altruistische Manöverplanung für autonome Fahrzeuge mit Multi-Agenten-A2C

Mit der zunehmenden Verbreitung autonomer Fahrzeuge entsteht ein Mischverkehr, in dem selbstfahrende und von Menschen gesteuerte Autos geme…

arXiv – cs.AI 11.12.2025 05:00

Forschung

Neuer Actor-Critic-Algorithmus verbindet Interpretierbarkeit mit Optimierung

Ein neuer Ansatz im Bereich des Reinforcement Learning, der die bisherige Lücke zwischen Optimierung und Erklärbarkeit schließt, wurde auf…

arXiv – cs.LG 08.12.2025 05:00

Forschung

NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten

In der Forschung zu großen Sprachmodellen (LLMs) gewinnen Agenten, die über lange Zeiträume mit ihrer Umgebung interagieren, immer mehr an…

arXiv – cs.LG 05.12.2025 05:00

Forschung

Sicheres, nachhaltiges Laden von Elektrobusse mit hierarchischem DRL optimiert

Die Integration von Elektrobusse (EB) in erneuerbare Energiequellen wie Photovoltaik (PV) bietet eine vielversprechende Lösung für umweltfr…

arXiv – cs.LG 04.12.2025 05:00

Forschung

LLM-gestützte Planung mit Subgoal-Graphen verbessert Open-World RL

In einer neuen Studie wird gezeigt, wie große Sprachmodelle (LLMs) die Planung in Reinforcement-Learning-Umgebungen deutlich verbessern kön…

arXiv – cs.LG 27.11.2025 05:00

Forschung

Deep Reinforcement Learning steuert Raumfahrzeug-Ausrichtung trotz Sperrzone

In einer wegweisenden Studie wird Deep Reinforcement Learning (DRL) eingesetzt, um die Ausrichtung von Raumfahrzeugen präzise zu steuern, s…

arXiv – cs.AI 19.11.2025 05:00

Forschung

Neuer Actor-Critic-Algorithmus sichert robuste RCMDPs gegen Unsicherheit

Ein neues Verfahren aus dem arXiv-Preprint 2511.05758v1 liefert einen robusten und sicheren Ansatz für Robust Constrained Average-Cost Mark…

arXiv – cs.LG 11.11.2025 05:00

Forschung

PAC‑MCoFL: Pareto‑optimiertes Federated Learning für nicht kooperative SPs

In einer neuen Studie aus dem arXiv‑Repository wird das PAC‑MCoFL‑Framework vorgestellt, das die Kommunikation und Rechenleistung in Federa…

arXiv – cs.LG 25.08.2025 05:00

Forschung

AC3: RL-Framework verbessert Robotik-Manipulation bei sparsamen Belohnungen

In der Robotik stellt die Bewältigung von Aufgaben mit langen Zeithorizonten und seltenen Belohnungen ein großes Problem dar. Das neue Fram…

arXiv – cs.AI 18.08.2025 05:00

Finde Modelle, Firmen und Themen

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik

Neuer Actor-Critic-Algorithmus löst Bi-Level-Reinforcement-Learning effizient

Altruistische Manöverplanung für autonome Fahrzeuge mit Multi-Agenten-A2C

Neuer Actor-Critic-Algorithmus verbindet Interpretierbarkeit mit Optimierung

NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten

Sicheres, nachhaltiges Laden von Elektrobusse mit hierarchischem DRL optimiert

LLM-gestützte Planung mit Subgoal-Graphen verbessert Open-World RL

Deep Reinforcement Learning steuert Raumfahrzeug-Ausrichtung trotz Sperrzone

Neuer Actor-Critic-Algorithmus sichert robuste RCMDPs gegen Unsicherheit

PAC‑MCoFL: Pareto‑optimiertes Federated Learning für nicht kooperative SPs

AC3: RL-Framework verbessert Robotik-Manipulation bei sparsamen Belohnungen

🍪 Cookie-Einstellungen

Neues Pretraining für Actor-Critic: 86 % weniger Interaktionen bei Robotik