Aktive Slice‑Entdeckung bei LLMs: Fehlergruppen mit nur wenigen Annotationen erkennen
Moderne Sprachmodelle zeigen häufig systematische Fehler, die sich auf bestimmte Datengruppen, sogenannte Fehler‑Slices, beschränken. Ein klassisches Beispiel ist die schlechte Erkennung von toxischen Kommentaren, die sich auf eine bestimmte Bevölkerungsgruppe beziehen. Das Erkennen dieser Slice‑Spezifika ist entscheidend, um die Modelle zu verstehen und gezielt zu verbessern.