AstroReason-Bench: Testet Agentenplanung in komplexen Raumfahrtproblemen
Neues Benchmarking-Tool namens AstroReason-Bench wurde vorgestellt, um die Leistungsfähigkeit von agentenbasierten Sprachmodellen (LLMs) in realen, physikgebundenen Raumfahrtplanungsaufgaben zu prüfen. Diese Aufgaben, d…