Subgruppenbalance: Warum ausgewogene Daten nicht immer besser sind
Eine neue Studie von Forschern auf arXiv (Arbeitstitel: Representation Invariance and Allocation: When Subgroup Balance Matters) zeigt, dass die gängige Annahme, eine ausgewogene Repräsentation aller demografischen Gruppen in Trainingsdaten sei immer optimal, nicht immer zutrifft. In einigen Fällen führt eine unausgewogene Verteilung sogar zu einer besseren Leistung einzelner Subgruppen, während in anderen Szenarien die Leistung einer Subgruppe kaum von der Anwesenheit aller Gruppen abhängt.