Neue Messkriterien für Zuverlässigkeit langer LLM-Agenten
Aktuelle Benchmarks bewerten vor allem die Fähigkeit eines Modells, bei einer einzigen Ausführung erfolgreich zu sein. In produktiven Umgebungen ist jedoch die Zuverlässigkeit entscheidend – das Modell muss bei wiederho…