Neue Benchmarks zeigen: Multimodale LLMs liefern inkonsistente Antworten
Forscher haben zwei neue Benchmarks – REST und REST+ (Render‑Equivalence Stress Tests) – entwickelt, um die Konsistenz multimodaler Large Language Models (MLLMs) systematisch zu prüfen. Die Tests stellen dieselben seman…