Forschung
SC2Arena & StarEvolve: Neuer Benchmark für LLMs in komplexen Entscheidungsaufgaben
Die Bewertung großer Sprachmodelle (LLMs) in anspruchsvollen Entscheidungsaufgaben ist entscheidend, um die strategische Planung und die Ec…
arXiv – cs.LG