OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
TowerMind: Neues Tower-Defense-Umfeld für LLM-Agenten
arXiv – cs.AI
•
AgentDevel: LLM-Agenten als Release‑Engineering neu gedacht
arXiv – cs.AI
•
Neues Benchmark SoMe bewertet LLM-basierte Social‑Media‑Agenten
arXiv – cs.LG
•
Klein, aber oho: GPT‑OSS 20B dominiert Finanz‑LLM‑Benchmark
arXiv – cs.AI
•
Strukturierte Suche nach Multi-Agenten-Systemen übertrifft LLM-basierte Ansätze
arXiv – cs.LG
•
Neue Benchmarks für Sprachmodelle neu gedacht: Fokus auf wissenschaftlichen Fortschritt