Suche nach Q-Learning | meineki.news

Sicherheitsorientiertes Q‑Learning: Expertenbeispiele bei unbekannten Beschränkungen In einer neuen Studie aus dem Bereich der künstlichen Intelligenz wird gezeigt, wie Agenten aus sicheren Demonstrationen lernen können, selbst in Umgebungen mit unbekannten Beschränkungen zu agieren. Das Ziel ist es, eine Politik zu entwickeln, die die Wahrscheinlichkeit von sicheren, aber gleichzeitig lohnenden Handlungen maximiert. Der Ansatz, der als SafeQIL (Sicheres Q‑Inverse Konstrahiertes Verstärkungslernen) bezeic

arXiv – cs.LG 02.03.2026 05:00

Neuer Regret‑Bound für Online Q‑Learning ohne Optimismus

Ein neues arXiv‑Veröffentlichungsdokument liefert den ersten hochwahrscheinlichen Regret‑Bound für klassisches Online Q‑Learning in unendli…

arXiv – cs.LG 19.02.2026 05:00

Forschung

Q‑Learning bleibt stabil – neue Einblicke in die Konvergenz

In einer aktuellen Veröffentlichung auf arXiv wird gezeigt, dass Q‑Learning mit linearer Funktionsapproximation unter der sogenannten $(\va…

arXiv – cs.LG 09.02.2026 05:00

Praxis

Offline-Training von sicherheitskritischen RL-Agenten mit Conservative Q‑Learning

In diesem Tutorial wird ein ganzheitliches Lernsystem für sicherheitskritische Reinforcement‑Learning‑Agenten vorgestellt, das ausschließli…

MarkTechPost 04.02.2026 04:49

Forschung

Wie die Update‑Frequenz von Zielnetzwerken Q‑Learning optimiert Eine neue Veröffentlichung auf arXiv beleuchtet ein zentrales Stabilisierungselement des (deep) Q‑Learning: die Häufigkeit, mit der das Zielnetzwerk aktualisiert wird. Trotz seiner Bedeutung bleibt die Wahl dieser Frequenz oft ein rein hyperparameter‑basiertes Experiment, ohne klare theoretische Grundlage. Die Autoren führen eine gründliche Analyse im tabellarischen Q‑Learning durch und betrachten periodische Zielupdates als ve

arXiv – cs.LG 05.02.2026 05:00

Forschung

Neuer Ansatz für risikosensitives Q‑Learning in kontinuierlicher Zeit

Ein neues arXiv‑Veröffentlichung beleuchtet die Herausforderung des risikosensitiven Reinforcement Learning (RSRL) in kontinuierlicher Zeit…

arXiv – cs.LG 03.12.2025 05:00

Forschung

BiCQL-ML: Bi-Level-Framework verbessert Offline-IRL ohne Policy-Lernen

Ein neuer Ansatz namens BiCQL-ML verspricht, die Offline-Inverse-Reinforcement-Learning (IRL)-Forschung auf ein neues Level zu heben. Dabei…

arXiv – cs.LG 01.12.2025 05:00

Forschung

Feudal Q-Learning: Konvergenz und Stabilität in Hierarchischem RL nachgewiesen

Eine neue Veröffentlichung auf arXiv präsentiert Feudal Q‑Learning, ein hierarchisches Reinforcement‑Learning‑Verfahren, das nun mit solide…

arXiv – cs.LG 24.11.2025 05:00

Forschung

Neuer Deep SOR Minimax Q-Learning beschleunigt Zwei-Spieler Nullsummenspiele

In der Welt der spieltheoretischen Algorithmen hat ein neues Verfahren die Messlatte höher gelegt: Der Deep SOR Minimax Q‑Learning-Algorith…

arXiv – cs.LG 21.11.2025 05:00

Forschung

Neues MARL-Studie: Nicht-monotone Faktorisierung übertrifft monotone Ansätze

Eine neue Veröffentlichung auf arXiv beleuchtet die Prinzipien der Wertdekomposition in Multi-Agent Reinforcement Learning (MARL) und zeigt…

arXiv – cs.LG 14.11.2025 05:00

Forschung

Deep Q-Learning: Q‑Wert‑Updates durch Vorhersage von Nachfolgestates optimiert

Deep‑Q‑Netzwerke (DQNs) schätzen zukünftige Belohnungen, indem sie aus Transitions im Replay‑Buffer lernen. Dabei basieren die Ziel‑Updates…

arXiv – cs.LG 07.11.2025 05:00

Finde Modelle, Firmen und Themen

Neuer Regret‑Bound für Online Q‑Learning ohne Optimismus

Q‑Learning bleibt stabil – neue Einblicke in die Konvergenz

Offline-Training von sicherheitskritischen RL-Agenten mit Conservative Q‑Learning

Neuer Ansatz für risikosensitives Q‑Learning in kontinuierlicher Zeit

BiCQL-ML: Bi-Level-Framework verbessert Offline-IRL ohne Policy-Lernen

Feudal Q-Learning: Konvergenz und Stabilität in Hierarchischem RL nachgewiesen

Neuer Deep SOR Minimax Q-Learning beschleunigt Zwei-Spieler Nullsummenspiele

Neues MARL-Studie: Nicht-monotone Faktorisierung übertrifft monotone Ansätze

Deep Q-Learning: Q‑Wert‑Updates durch Vorhersage von Nachfolgestates optimiert

🍪 Cookie-Einstellungen