SokoBench: Bewertung der Langzeitplanung und des Denkens großer Sprachmodelle
Die neuesten Fortschritte in großen Sprachmodellen (Large Language Models, LLMs) haben gezeigt, dass sie komplexe Denkaufgaben meistern können. Doch ihre Fähigkeit, langfristige Planungen durchzuführen, blieb bislang we…