KI News: Kurz und klar.

Anmelden

Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance

arXiv – cs.AI • 03.11.2025 05:00 • Original

#LLM #Reasoning #Formal Verification #Lean #TempoBench #Temporal Trace Evaluation #Benchmark

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 19.08.2025 05:00

FutureX: Das größte Live-Benchmark für KI-Agenten in der Zukunftsvorhersage

arXiv – cs.AI • 11.02.2026 05:00

RuleFlow: Wiederverwendbare Optimierungen für Pandas-Programme mit LLMs

arXiv – cs.AI • 04.02.2026 05:00

CoS: Dynamisches Routing für LLMs steigert Genauigkeit um 65 % bei bAbI

arXiv – cs.AI • 03.02.2026 05:00

Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf

arXiv – cs.AI • 03.02.2026 05:00

Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression

arXiv – cs.AI • 29.01.2026 05:00

AMA: Adaptive Memory durch Multi-Agenten-Kollaboration