KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “TRPO”

LLM‑gestützte Prompted Policy Search revolutioniert Reinforcement Learning

Reinforcement Learning (RL) hat sich lange Zeit auf reine Zahlenwerte als Belohnung beschränkt, wodurch die reichhaltige semantische Inform…

arXiv – cs.LG 01.12.2025 05:00

Non‑stationäre MDPs mit variabler Diskontierung: Ein neues Lern‑Framework

In einer kürzlich veröffentlichten Arbeit auf arXiv wird das NVMDP‑Framework vorgestellt, das klassische Markov‑Entscheidungsprozesse (MDPs…

arXiv – cs.LG 25.11.2025 05:00

MARL koordiniert heterogene Satellitencluster für autonome Erdbeobachtung

In einer wegweisenden Studie aus dem arXiv-Repository wird gezeigt, wie Multi‑Agent Reinforcement Learning (MARL) die Ressourcenoptimierung…

arXiv – cs.AI 18.11.2025 05:00

Deep Reinforcement Learning: Energie‑ und CO₂‑Effizienz bei Atari‑Benchmarks analysiert

In einer neuen Studie wurden die Energie- und CO₂‑Emissionen von sieben modernen Deep‑Reinforcement‑Learning‑Algorithmen – DQN, TRPO, A2C…

arXiv – cs.LG 08.09.2025 05:00

Mobile-Agent-v3: Neuer Maßstab für GUI‑Automatisierung

In einer wegweisenden Veröffentlichung aus dem arXiv‑Repository präsentiert ein internationales Forschungsteam das Modell GUI‑Owl, das als…

arXiv – cs.AI 22.08.2025 05:00

Trust‑Region‑Methoden meistern variable Morphologien

In einer neuen Veröffentlichung aus der KI‑Forschung wird untersucht, wie Trust‑Region‑Optimierungsverfahren wie TRPO und PPO in Umgebungen…

arXiv – cs.LG 21.08.2025 05:00

<h1>Heterogene Agenten: Trust-Region-Optimierung steigert MARL um 22,5 %</h1> <p>Multi-Agent Reinforcement Learning (MARL) erfordert koordinierte und stabile Policy‑Updates zwischen den Agenten. Die bisherige Methode, die Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) genannt wird, nutzt die Kullback‑Leibler‑Divergenz (KL) als Trust‑Region‑Grenze, um das Training zu stabilisieren. Wenn allen Agenten jedoch dieselbe KL‑Schwelle zugewiesen wird, kann das zu langsamen, lokal optimalen Updates fü

arXiv – cs.AI 15.08.2025 05:00