Forschung
ClawsBench: Benchmark für LLM-Agenten in realistischen Produktivitäts-Workflows
Mit der zunehmenden Verbreitung von Sprachmodellen als Produktivitätsagenten steigt auch das Bedürfnis, deren Fähigkeiten und Sicherheit zu…
arXiv – cs.AI