HeroBench: Langzeitplanung strukturiertes Denken in virtuellen Welten
Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) zeigen beeindruckende Leistungen bei isolierten, schrittweisen Denkaufgaben wie Mathematik und Programmieren. Doch ihre Fähigkeiten, komplexe Langzeitpläne zu e…