In‑Context Reinforcement Learning mit suboptimalen Daten: Neuer Transformer‑Ansatz liefert bessere Ergebnisse
Transformer‑Modelle haben in den letzten Jahren dank ihrer in‑Context‑Learning‑Fähigkeiten enorme Fortschritte erzielt. In einer neuen Studie wird ein autoregressiver Transformer für das sogenannte In‑Context Reinforcem…