Forschung
SPARROW: Pixelgenaues Video-MLLM mit verbesserter räumlicher Präzision
Ein neues multimodales Sprachmodell namens SPARROW setzt neue Maßstäbe für die Analyse von Videos auf Pixelebene. Durch die Kombination von…
arXiv – cs.AI