V-Agent: Interaktives Videosuchsystem mit Vision‑Language-Modellen
V-Agent ist eine neuartige Multi‑Agent-Plattform, die fortschrittliche Videosuche mit interaktiven Gesprächen zwischen Nutzer und System kombiniert. Durch die Feinabstimmung eines Vision‑Language‑Modells (VLM) auf einem kleinen Datensatz von Videopräferenzen und die Ergänzung um einen Retrieval‑Vektor aus einem Bild‑Text‑Retrieval‑Modell überwindet V-Agent die Schwächen herkömmlicher textbasierter Suchsysteme in multimodalen Szenarien.