CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Aligning LLM agents with human learning and adjustment behavior: a dual agent approach
arXiv – cs.AI
•
Do LLM Agents Know How to Ground, Recover, and Assess? A Benchmark for Epistemic Competence in Information-Seeking Agents
arXiv – cs.AI
•
Maestro: Mehrere LLMs kooperieren effizienter – neue Methode für Multi-Agenten
arXiv – cs.AI
•
MONICA: Echtzeit-Überwachung von Sycophancy in großen Rechenmodellen
arXiv – cs.AI
•
LLM-Schritte prüfen: Unsicherheitsköpfe liefern schnelle Verifikation
arXiv – cs.AI
•
Secu-Table: Datenset für die Bewertung semantischer Tabelleninterpretation