CATArena: Neues Benchmark-Tool für lernende LLM-Agenten
Large Language Model (LLM)-Agenten haben sich von einfachen Textgeneratoren zu autonomen Systemen entwickelt, die komplexe Aufgaben durch Interaktion mit externen Tools erledigen können. Aktuelle Messverfahren beschränk…