On‑Policy-Expertenkorrekturen steigern Multi‑Turn-LM-Agenten
Im Bereich der Sprachmodell‑Agenten hat sich das Training über Imitationslernen etabliert: Modelle werden anhand von Experten‑Trajektorien feinjustiert. Doch die herkömmliche Vorgehensweise leidet unter dem sogenannten…