Forschung
LLM-WikiRace: Benchmark für Langzeitplanung und Weltwissen in KI
Mit dem neuen Benchmark LLM-WikiRace wird die Fähigkeit großer Sprachmodelle (LLMs) getestet, komplexe Planungsaufgaben zu lösen und dabei…
arXiv – cs.AI