AMUSE: Benchmark für Agenten-Orientierte Audio-Video-Verständnis
Neuste multimodale Sprachmodelle wie GPT‑4o und Qwen3‑Omni zeigen beeindruckende Wahrnehmungsfähigkeiten, doch sie kämpfen in Szenarien mit mehreren Sprechern, die agentisches Denken erfordern. In solchen dialogzentrier…