Forschung
M3-Bench: Prozessbasierte Bewertung von LLM-Agenten in Mixed-Motive-Spielen
Mit dem neuen Benchmark M3-Bench wird die Bewertung von großen Sprachmodellagenten (LLM) auf dem Gebiet der sozialen Interaktion in Mixed-M…
arXiv – cs.AI