Audio‑Attacken brechen trimodale Modelle – 96 % Erfolgsrate bei hörbaren Störungen
Multimodale Grundmodelle, die Audio, Vision und Sprache kombinieren, erzielen beeindruckende Leistungen bei komplexen Aufgaben, doch ihre Widerstandsfähigkeit gegen gezielte Störungen ist bislang wenig erforscht. In ein…