Mechanics of Learned Reasoning 1: TempoBench, A Benchmark for Interpretable Deconstruction of Reasoning System Performance
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
FutureX: Das größte Live-Benchmark für KI-Agenten in der Zukunftsvorhersage
arXiv – cs.AI
•
RuleFlow: Wiederverwendbare Optimierungen für Pandas-Programme mit LLMs
arXiv – cs.AI
•
CoS: Dynamisches Routing für LLMs steigert Genauigkeit um 65 % bei bAbI
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
arXiv – cs.AI
•
AMA: Adaptive Memory durch Multi-Agenten-Kollaboration