Forschung
SkillsBench: Benchmark zeigt Wirkung von Agentenfähigkeiten auf 86 Aufgaben
Die neue Studie von SkillsBench liefert erstmals ein standardisiertes Messinstrument, um zu prüfen, ob strukturierte Agentenfähigkeiten – a…
arXiv – cs.AI