Neues RL-Framework verbessert Video-Understanding ohne Supervised Fine‑Tuning
Multi‑modale Large Language Models (MLLMs) haben das Potenzial, Videos zu verstehen, doch ihre Argumentationswege leiden häufig unter Denk‑Abweichungen und schwacher zeitlicher Kohärenz. Selbst wenn sie mit Reinforcemen…