MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Reward‑Design als Schlüssel zur zuverlässigen LLM‑Logik
arXiv – cs.AI
•
LLM-FSM: Automatisiertes Benchmark für FSM-zu-RTL-Übersetzung
arXiv – cs.LG
•
SCALAR-Benchmark prüft Halluzinationen und Konsistenz in Material-ML-Modellen
arXiv – cs.AI
•
ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle
arXiv – cs.AI
•
PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten
arXiv – cs.LG
•
Text2Graph: LLMs & GNNs für effiziente Textklassifizierung bei knappen Labels