Neue Methode ACES bewertet LLM-Codetests ohne Zirkularität
Die Auswahl von Codekandidaten, die von großen Sprachmodellen (LLMs) generiert werden, gestaltet sich schwierig, wenn die Tests, die zur Bewertung dienen, selbst fehlerhaft sein können. Traditionelle Ansätze behandeln a…