Brittlebench: Wie Prompt-Varianten die Robustheit von LLMs messen
Die meisten Bewertungssysteme für Sprachmodelle beruhen auf sauberen, statischen Testdatensätzen. Dadurch wird die tatsächliche Leistungsfähigkeit oft überschätzt, weil sie die Fehler, Tippfehler und unterschiedlichen F…