Q‑Learning bleibt stabil – neue Einblicke in die Konvergenz In einer aktuellen Veröffentlichung auf arXiv wird gezeigt, dass Q‑Learning mit linearer Funktionsapproximation unter der sogenannten $(\varepsilon,\kappa)$‑tamed Gibbs‑Policy stabil bleibt. Das bedeutet, die Parameter des Modells bleiben stets beschränkt und es existiert eine Lösung der projizierten Bellman‑Gleichung (PBE). Diese Resultate gelten für beliebige Werte von $\kappa$ (der Inversen Temperatur) und für jedes $\varepsilon>0$, das zusätzliche Exploration einführt. arXiv – cs.LG 09.02.2026 05:00
Bayessche ATM-Variante steigert Stabilität bei mHealth-Interventionen In der mobilen Gesundheitsforschung (mHealth) gilt es, die Wirksamkeit von Interventionen mit dem Aufwand für die Nutzer in Einklang zu bringen. Besonders problematisch sind dabei Zustandsmessungen – etwa Befragungen oder Feedback‑Formulare – die zwar entscheidend, aber kostenintensiv sind. arXiv – cs.LG 11.12.2025 05:00
Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs) auf nicht‑stationäre Umgebungen erweitert und die Diskontierungsrate flexibel mit Zeit und Übergängen variieren lässt. Dadurch werden sowohl unendliche‑horizontale, stationäre MDPs als auch endliche‑horizontale Modelle als Spezialfälle abgedeckt, ohne die Zustands‑, Aktions‑ oder Belohnungsstruktur zu verändern. arXiv – cs.LG 25.11.2025 05:00
Multiagent‑Lernsystem für Verkehrssteuerung erreicht stabile Konvergenz In schnell wachsenden Städten wie Bangalore verschärft die zunehmende Urbanisierung die Verkehrsbelastung und macht ein effizientes Verkehrssignalsteuerungssystem (TSC) unerlässlich. Multi‑Agent Reinforcement Learning (MARL) hat sich dabei als vielversprechende Lösung etabliert, indem jedes Ampelsignal als eigenständiger Agent mit Q‑Learning agiert. arXiv – cs.LG 18.11.2025 05:00
Roboterprogrammierung mit Python: Q‑Learning, Actor‑Critic & Algorithmen In dem Artikel „Roboterprogrammierung mit Python: Q‑Learning, Actor‑Critic & Algorithmen“ wird gezeigt, wie man eine maßgeschneiderte 3D‑Umgebung für einen Reinforcement‑Learning‑Roboter erstellt. Durch die Kombination von Python‑Bibliotheken und 3D‑Simulationstools können Entwickler ihre Lernalgorithmen in einer realitätsnahen Umgebung testen und optimieren. Towards Data Science 13.11.2025 16:56
torchforge: PyTorch-native Bibliothek für skalierbares RL nach dem Training Wir freuen uns, torchforge vorzustellen – eine neue, reine PyTorch‑Bibliothek, die es Forschern und Entwicklern ermöglicht, sich ausschließlich auf die Entwicklung von Algorithmen zu konzentrieren, ohne sich mit komplexer Infrastruktur auseinandersetzen zu müssen. PyTorch – Blog 22.10.2025 15:55
Neues BRIEF-Modell verbessert fMRI-basierte Krankheitsklassifikation Ein neues Forschungsdokument, veröffentlicht auf arXiv, stellt das BRIEF‑Framework vor, das die Klassifikation von psychischen Erkrankungen mittels funktioneller Magnetresonanztomographie (fMRI) deutlich verbessert. arXiv – cs.LG 19.08.2025 05:00