M3-Bench: Prozessbasierte Bewertung von LLM-Agenten in Mixed-Motive-Spielen
Mit dem neuen Benchmark M3-Bench wird die Bewertung von großen Sprachmodellagenten (LLM) auf dem Gebiet der sozialen Interaktion in Mixed-Motive-Spielen auf ein neues Level gehoben. Während bisherige Tests meist nur ein…