WebRSSBench: MLLM‑Tests für Web‑Reasoning, Robustheit und Sicherheit
Ein neues Benchmark‑Set namens WebRSSBench wurde vorgestellt, um multimodale große Sprachmodelle (MLLMs) in ihrer Fähigkeit zu prüfen, komplexe Web‑Anwendungen zu verstehen. Während frühere Tests vor allem die visuelle Wahrnehmung oder die Generierung von UI‑Code bewerteten, konzentriert sich WebRSSBench auf die drei entscheidenden Dimensionen Reasoning, Robustness und Safety.