APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
RuleFlow: Wiederverwendbare Optimierungen für Pandas-Programme mit LLMs
arXiv – cs.AI
•
Neue Methode zur Unsicherheitsrechnung für verlässliche LLM-Agenten
MarkTechPost
•
NVIDIA präsentiert VIBETENSOR: KI-generierte Deep-Learning-Umgebung
arXiv – cs.AI
•
CoS: Dynamisches Routing für LLMs steigert Genauigkeit um 65 % bei bAbI
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression