Neue Benchmarks zeigen: Multimodale LLMs liefern inkonsistente Antworten
Forscher haben zwei neue Benchmarks – REST und REST+ (Render‑Equivalence Stress Tests) – entwickelt, um die Konsistenz multimodaler Large Language Models (MLLMs) systematisch zu prüfen. Die Tests stellen dieselben semantischen Inhalte in drei Modalitäten (Bild, Text, gemischt) dar und zeigen, dass aktuelle MLLMs nicht zuverlässig über alle Modalitäten hinweg arbeiten.