Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
GUITester: Automatisierte GUI‑Tests mit KI – neue Benchmark und Framework
arXiv – cs.AI
•
A^2Flow: Automatisierte Agenten-Workflow-Generierung mit adaptiven Operatoren
arXiv – cs.AI
•
SPAN: Benchmark für interkalenderische Zeitlogik von LLMs
arXiv – cs.AI
•
ResearchRubrics: Benchmark für Deep Research Agents mit 2.800 Stunden Arbeit
arXiv – cs.AI
•
Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
arXiv – cs.AI
•
HardcoreLogic: Benchmark prüft Logikmodelle mit seltenen Rätselvarianten