Forschung
Multimodale Transformer: Vision, Sprache und Synergie im Detail analysiert Eine neue Studie auf arXiv untersucht, wie multimodale Transformer – also Modelle, die Text und Bild gleichzeitig verarbeiten – ihre Vorhersagen treffen. Dabei wird genau analysiert, ob die Antwort vor allem von visuellen Hinweisen, sprachlichen Argumenten oder einer echten Kombination aus beiden abhängt und wie sich diese Abhängigkeiten in den einzelnen Schichten des Modells verändern. Zur Untersuchung wird ein schichtweises Ver
arXiv – cs.AI