Forschung
Neues RL-Framework verbessert Video-Understanding ohne Supervised Fine‑Tuning
Multi‑modale Large Language Models (MLLMs) haben das Potenzial, Videos zu verstehen, doch ihre Argumentationswege leiden häufig unter Denk‑…
arXiv – cs.AI