LLMs als textbasierte Steuerung: Neue Benchmark für Exploration und Navigation
Forscher haben ein neues, reproduzierbares Benchmark entwickelt, um zu prüfen, ob große Sprachmodelle (LLMs) allein mit Textbefehlen in unbekannten Layouts navigieren und erkunden können – ohne Codeausführung, Werkzeuge…