KI News: Kurz und klar.

Anmelden

MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science

arXiv – cs.AI • 15.10.2025 05:00 • Original

#MatSciBench #Large Language Models #Materials Science #Benchmark #Multimodal Reasoning #Gemini-2.5-Pro #Chain-of-Thought

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 11.02.2026 05:00

Reward‑Design als Schlüssel zur zuverlässigen LLM‑Logik

arXiv – cs.AI • 10.02.2026 05:00

LLM-FSM: Automatisiertes Benchmark für FSM-zu-RTL-Übersetzung

arXiv – cs.LG • 02.02.2026 05:00

SCALAR-Benchmark prüft Halluzinationen und Konsistenz in Material-ML-Modellen

arXiv – cs.AI • 02.02.2026 05:00

ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

arXiv – cs.AI • 26.01.2026 05:00

PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten

arXiv – cs.LG • 12.12.2025 05:00

Text2Graph: LLMs & GNNs für effiziente Textklassifizierung bei knappen Labels