Aktive Slice‑Entdeckung bei LLMs: Fehlergruppen mit nur wenigen Annotationen erkennen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Moderne Sprachmodelle zeigen häufig systematische Fehler, die sich auf bestimmte Daten­gruppen, sogenannte Fehler‑Slices, beschränken. Ein klassisches Beispiel ist die schlechte Erkennung von toxischen Kommentaren, die sich auf eine bestimmte Bevölkerungsgruppe beziehen. Das Erkennen dieser Slice‑Spezifika ist entscheidend, um die Modelle zu verstehen und gezielt zu verbessern.

In der vorliegenden Arbeit wird der Ansatz der „Active Slice Discovery“ formalisiert. Dabei werden Fehler zunächst automatisch in potenzielle Slice‑Gruppen eingeteilt und anschließend mit einer begrenzten Anzahl von annotatorischen Prüfungen verifiziert. Das Verfahren wurde auf dem Problem der toxischen Klassifikation getestet, wobei menschlich definierte Slices als Referenz dienten.

Die Ergebnisse zeigen, dass Unsicherheits‑basiertes Active Learning die effektivste Methode ist. Mit lediglich 2 – 10 % der verfügbaren Slice‑Mitgliedschaftsinformationen erreicht es eine vergleichbare Genauigkeit wie herkömmliche Ansätze und übertrifft dabei die Baselines deutlich. Diese Erkenntnisse deuten darauf hin, dass aktive Slice‑Entdeckung ein vielversprechender Weg ist, um die Fehleranalyse von LLMs effizienter zu gestalten.

Ähnliche Artikel