SPACeR: Self-Play Anchoring with Centralized Reference Models
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Imitation Learning: Optimierung komplexer Aufgaben unter Unsicherheit
arXiv – cs.LG
•
FADTI: Fourier‑ und Attention‑basiertes Diffusionsmodell für Zeitreihen‑Imputation
arXiv – cs.AI
•
Mirror Mode: KI imitiert Spielerstrategien in Fire Emblem – Herausforderung
arXiv – cs.LG
•
TreeGRPO: Effiziente RL-Post-Training-Strategie für Diffusionsmodelle
arXiv – cs.LG
•
Diffusionsmodelle optimieren Offline‑RL: DIVO steigert Leistung
arXiv – cs.LG
•
Robuste Offline-Imitation: Balance-Equation-basierte Lösung für dynamische Umgebungen