Forschung
AstroReason-Bench: Testet Agentenplanung in komplexen Raumfahrtproblemen
Neues Benchmarking-Tool namens AstroReason-Bench wurde vorgestellt, um die Leistungsfähigkeit von agentenbasierten Sprachmodellen (LLMs) in…
arXiv – cs.AI