Forschung
MIRA: Neuer RL-Agent nutzt Memory‑Graph, reduziert LLM‑Abhängigkeit
Reinforcement‑Learning‑Agenten kämpfen häufig mit hoher Sample‑Complexity, wenn Belohnungen spärlich oder verzögert auftreten. Große Sprach…
arXiv – cs.AI