Interaktive Bewertung von LLMs für komplexe Softwareentwicklungsaufgaben
Standard-Benchmarks, die ein einzelnes Gespräch simulieren, reichen nicht aus, um die feinen Fähigkeiten großer Sprachmodelle (LLMs) bei anspruchsvollen Softwareentwicklungsaufgaben zu messen. Deshalb wurde ein neues, i…