Foundation-Modelle kämpfen mit Modalitätsungleichgewicht bei multimodaler Logik
Foundation‑Modelle (FMs) sind heute in vielen realen Anwendungen – von Computer‑Assistenten bis hin zu autonomen Systemen – im Einsatz. Damit sie jedoch zuverlässig funktionieren, müssen sie Informationen aus unterschiedlichen Modalitäten (z. B. Text, Bild, Sprache) gleichzeitig verarbeiten und miteinander in Beziehung setzen. In einer neuen Studie wurde untersucht, wie gut FMs in solchen „cross‑modal“ Situationen – also bei widersprüchlichen Hinweisen aus verschiedenen Modalitäten – zurechtkommen.