Forschung arXiv – cs.LG

Chunked Data Shapley: Skalierbare Qualitätsbewertung großer Datensätze

Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑Learning‑Analysen zu gewährleisten. Ein moderner, s…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑L…
  • Ein moderner, spieltheoretischer Ansatz zur Qualitätsmessung ist das Konzept des Data Shapley, das den Wert einzelner Datenpunkte innerhalb eines Datensatzes quantifizie…
  • Die bisher führenden Methoden zur Skalierung der NP‑schweren Shapley‑Berechnung stoßen bei großen Datensätzen an ihre Grenzen, was ihre praktische Anwendbarkeit einschrä…

Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑Learning‑Analysen zu gewährleisten. Ein moderner, spieltheoretischer Ansatz zur Qualitätsmessung ist das Konzept des Data Shapley, das den Wert einzelner Datenpunkte innerhalb eines Datensatzes quantifiziert.

Die bisher führenden Methoden zur Skalierung der NP‑schweren Shapley‑Berechnung stoßen bei großen Datensätzen an ihre Grenzen, was ihre praktische Anwendbarkeit einschränkt. In der vorliegenden Arbeit wird ein neuer Ansatz namens Chunked Data Shapley (C‑DaSh) vorgestellt, der das Dataset in handhabbare Stücke aufteilt und die Beitragsschätzung jedes Chunks mithilfe einer optimierten Teilmengeauswahl und eines ein‑Durchlauf‑stochastischen Gradientenabstiegs durchführt.

Durch diese Aufteilung wird die Rechenzeit drastisch reduziert, während die Qualität der Ergebnisse weitgehend erhalten bleibt. In umfangreichen Benchmarks mit realen Klassifikations‑ und Regressionsaufgaben konnte gezeigt werden, dass C‑DaSh die bestehenden Shapley‑Approximationen sowohl in der Rechenleistung (Geschwindigkeitssteigerungen von 80‑ bis 2300‑fach) als auch in der Genauigkeit bei der Erkennung von Qualitätslücken deutlich übertrifft.

Damit ermöglicht C‑DaSh die praktische Messung der Datensatzqualität bei großen tabellarischen Daten und unterstützt sowohl Klassifikations‑ als auch Regressions‑Pipelines, was einen wichtigen Schritt zur verlässlicheren Nutzung großer Datenmengen im Machine Learning darstellt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Data Shapley
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Chunked Data Shapley
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Maschinelles Lernen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen