SC2Arena & StarEvolve: Neuer Benchmark für LLMs in komplexen Entscheidungsaufgaben
Die Bewertung großer Sprachmodelle (LLMs) in anspruchsvollen Entscheidungsaufgaben ist entscheidend, um die strategische Planung und die Echtzeit‑Anpassungsfähigkeit von KI-Systemen zu verbessern. Trotz der Popularität von StarCraft II als Testfeld fehlt bislang ein Benchmark, der die volle Komplexität des Spiels abbildet.