SAGE: Neuer Benchmark für Service-Agenten mit Graph-basierter Bewertung
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat die Automatisierung im Kundenservice vorangetrieben, doch die Bewertung ihrer Leistungsfähigkeit bleibt bislang schwierig. Traditionelle Benchmarks setzen auf star…