Forschung
ChromouVQA: Neues Benchmark für Vision‑Language‑Modelle mit chromatischer Tarnung
Vision‑Language‑Modelle (VLMs) haben die multimodale Verarbeitung von Bild- und Textdaten revolutioniert, stoßen jedoch bei der Erkennung v…
arXiv – cs.AI