Forschung
Vintix II: Entscheidungs-Pre-Trained Transformer als skalierbarer In-Context RL-Learner
In einer neuen Veröffentlichung präsentiert das Forschungsteam die Vintix II‑Methode, einen Decision Pre‑Trained Transformer (DPT), der In‑…
arXiv – cs.LG