<p>Multimodale Modelle halluzinieren: Neue Benchmark zeigt Schwächen beim Szenenvergleich</p> <p>Ein neues arXiv-Papier (ArXiv:2511.03768v1) präsentiert die erste umfassende Untersuchung, wie multimodale Sprachmodelle – die gleichzeitig Text und Bild verarbeiten – bei der Beantwortung von Fragen über mehrere Szenen hinweg versagen. Die Autoren haben einen Benchmark namens <strong>Common‑O</strong> entwickelt, der über 10.500 Beispiele aus völlig neuen Bildern enthält, die nicht in den Trainingsdaten der Mod

arXiv – cs.LG Original
Anzeige