ClawsBench: Benchmark für LLM-Agenten in realistischen Produktivitäts-Workflows
Mit der zunehmenden Verbreitung von Sprachmodellen als Produktivitätsagenten steigt auch das Bedürfnis, deren Fähigkeiten und Sicherheit zuverlässig zu prüfen. Traditionelle Testsumgebungen sind jedoch zu simpel und kön…