KI News: Kurz und klar.

Anmelden

CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning

arXiv – cs.AI • 03.11.2025 05:00 • Original

#LLM #Beweisbewertung #Agentenworkflow #Rubriken #Mathematik-Olympiade #Kalibrierung #Teilweise Bewertung #automatisierte Bewertung

Anzeige

Ähnliche Artikel

AWS – Machine Learning Blog • 06.02.2026 16:29

Amazon Nova: Rubrikbasierter LLM-Judge für KI-Modelle auf SageMaker (Teil 2)

arXiv – cs.LG • 06.02.2026 05:00

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

arXiv – cs.AI • 30.01.2026 05:00

Planner-Auditor: Selbstverbessernder LLM-Planer reduziert Fehler bei Entlassungsplanung

arXiv – cs.AI • 29.01.2026 05:00

Intuition zu Expertise: Rubrikbasierte Kalibrierung zur Erkennung LLM-Koreanisch

arXiv – cs.LG • 09.01.2026 05:00

Dual-Align: Ein neuer Ansatz zur Kalibrierung von nachtrainierten Sprachmodellen

arXiv – cs.AI • 10.12.2025 05:00

AgentEval: Generative Agents als Ersatz für menschliche Bewertung von KI-Inhalten