ChromouVQA: Neues Benchmark für Vision‑Language‑Modelle mit chromatischer Tarnung
Vision‑Language‑Modelle (VLMs) haben die multimodale Verarbeitung von Bild- und Textdaten revolutioniert, stoßen jedoch bei der Erkennung von Objekten in stark verunreinigten Hintergründen noch immer an ihre Grenzen. Um dieses Problem gezielt zu untersuchen, wurde das Benchmark‑Set ChromouVQA entwickelt. Es basiert auf Ishihara‑ähnlichen Bildern, bei denen farbige Punkte in komplexen geometrischen Mustern versteckt sind.