PRiSM: Neuer multimodaler Benchmark für wissenschaftliches Denken mit Python
Wissenschaftliche Bild‑und Textmodelle (VLMs) stehen vor einer neuen Herausforderung: Sie müssen nicht nur Antworten liefern, sondern auch die zugrunde liegenden Konzepte, symbolische Logik und formalen Gesetze verstehe…