Forschung
Interaktive Bewertung von LLMs für komplexe Softwareentwicklungsaufgaben
Standard-Benchmarks, die ein einzelnes Gespräch simulieren, reichen nicht aus, um die feinen Fähigkeiten großer Sprachmodelle (LLMs) bei an…
arXiv – cs.AI