WebRSSBench: MLLM‑Tests für Web‑Reasoning, Robustheit und Sicherheit
Ein neues Benchmark‑Set namens WebRSSBench wurde vorgestellt, um multimodale große Sprachmodelle (MLLMs) in ihrer Fähigkeit zu prüfen, komplexe Web‑Anwendungen zu verstehen. Während frühere Tests vor allem die visuelle…