Dynamische Datenauswahl: Neue Definition von Repräsentativität und Vielfalt
In einer neuen Studie wird gezeigt, wie dynamische Datenauswahl das Training von Modellen beschleunigt, ohne die Genauigkeit zu beeinträchtigen. Anstelle der üblichen geometrischen Zentralität wird Repräsentativität neu definiert: Sie misst, wie gut ein Sample die häufigsten Merkmalsfaktoren des gesamten Datensatzes abdeckt. Vielfalt wird nicht mehr nur innerhalb eines Teilsets betrachtet, sondern auf Prozessebene festgelegt: Der Auswahlpfad soll im Verlauf des Trainings allmählich seltene, ergänzende Faktoren einbeziehen.
Das vorgeschlagene Framework besteht aus drei Bausteinen. Erstens wird die Repräsentativität mithilfe eines sparsamen Autoencoders bewertet, der auf dem Ziel-Datensatz trainiert wird. Die sparsamen Aktivierungen dienen dazu, sowohl einzelne Samples als auch die statistischen Merkmale des gesamten Datensatzes zusammenzufassen. Zweitens wird die Prozessvielfalt durch seltene-Faktor-Sampling und eine Usage‑Frequency‑Penalty erreicht, die die Rotation von Samples fördert, Monopolbildung verhindert und Gradientenbias reduziert. Drittens kombiniert das System die zweidimensionale Bewertung mit einem sanften Scheduler, der die Auswahl von der Konsolidierung zentraler Muster zur Erkundung seltener Faktoren übergeht, ohne zusätzliche Gradienten, Einflussabschätzungen oder zweite‑Ordnungskalkulationen zu erfordern.
Umfangreiche Experimente an fünf Benchmarks aus den Bereichen Vision und Text zeigen, dass die Methode die Genauigkeit‑Effizienz‑Trade‑Offs deutlich verbessert. In vielen Fällen erreicht sie die volle Datensatzgenauigkeit bei mehr als doppelt so schneller Trainingszeit.