CRM: Region-Masking zeigt, wie multimodale LLMs visuelle Infos nutzen
In einer neuen Studie wird ein innovatives Diagnoseverfahren namens Contrastive Region Masking (CRM) vorgestellt, das aufzeigt, wie multimodale große Sprachmodelle (MLLMs) einzelne Bildregionen bei jeder Phase des Chain…