Forschung
Brittlebench: Wie Prompt-Varianten die Robustheit von LLMs messen
Die meisten Bewertungssysteme für Sprachmodelle beruhen auf sauberen, statischen Testdatensätzen. Dadurch wird die tatsächliche Leistungsfä…
arXiv – cs.LG