Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
ARCTraj: Datensatz mit menschlichen Denkpfaden für abstraktes Problemlösen
arXiv – cs.AI
•
SpotAgent: LVLMs meistern Geo‑Lokalisierung mit agentischem Denken
arXiv – cs.AI
•
Erklärbare Kompression von Gedankenketten steigert Effizienz multimodaler Modelle
arXiv – cs.AI
•
CODE-SHARP: Offene Entdeckung von Fähigkeiten als Belohnungsprogramme
arXiv – cs.AI
•
Agent World Model: 1.000 synthetische Umgebungen für robuste Agenten-Training
arXiv – cs.LG
•
Kollaboration von Sprachmodellen über versteckte Zustände