Chunked Data Shapley: Skalierbare Qualitätsbewertung großer Datensätze

Kernaussagen

Das nimmst du aus dem Beitrag mit

Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑L…
Ein moderner, spieltheoretischer Ansatz zur Qualitätsmessung ist das Konzept des Data Shapley, das den Wert einzelner Datenpunkte innerhalb eines Datensatzes quantifizie…
Die bisher führenden Methoden zur Skalierung der NP‑schweren Shapley‑Berechnung stoßen bei großen Datensätzen an ihre Grenzen, was ihre praktische Anwendbarkeit einschrä…

Mit dem stetig wachsenden Volumen und der Vielfalt an verfügbaren Datensätzen wird die Bewertung ihrer Qualität immer wichtiger, um zuverlässige und effiziente Machine‑Learning‑Analysen zu gewährleisten. Ein moderner, spieltheoretischer Ansatz zur Qualitätsmessung ist das Konzept des Data Shapley, das den Wert einzelner Datenpunkte innerhalb eines Datensatzes quantifiziert.

Die bisher führenden Methoden zur Skalierung der NP‑schweren Shapley‑Berechnung stoßen bei großen Datensätzen an ihre Grenzen, was ihre praktische Anwendbarkeit einschränkt. In der vorliegenden Arbeit wird ein neuer Ansatz namens Chunked Data Shapley (C‑DaSh) vorgestellt, der das Dataset in handhabbare Stücke aufteilt und die Beitragsschätzung jedes Chunks mithilfe einer optimierten Teilmengeauswahl und eines ein‑Durchlauf‑stochastischen Gradientenabstiegs durchführt.

Durch diese Aufteilung wird die Rechenzeit drastisch reduziert, während die Qualität der Ergebnisse weitgehend erhalten bleibt. In umfangreichen Benchmarks mit realen Klassifikations‑ und Regressionsaufgaben konnte gezeigt werden, dass C‑DaSh die bestehenden Shapley‑Approximationen sowohl in der Rechenleistung (Geschwindigkeitssteigerungen von 80‑ bis 2300‑fach) als auch in der Genauigkeit bei der Erkennung von Qualitätslücken deutlich übertrifft.

Damit ermöglicht C‑DaSh die praktische Messung der Datensatzqualität bei großen tabellarischen Daten und unterstützt sowohl Klassifikations‑ als auch Regressions‑Pipelines, was einen wichtigen Schritt zur verlässlicheren Nutzung großer Datenmengen im Machine Learning darstellt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Data Shapley

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Chunked Data Shapley

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Maschinelles Lernen

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Data Shapley systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Data Shapley

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Data Shapley

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen