Effizienter Shapley‑Wert für LLM‑Fine‑Tuning: Sprachmodellarithmetik als Lösung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) gilt Daten als genauso wertvoll wie Rechenleistung und Fachkräfte. Während einige Trainingsdaten öffentlich zugänglich sind, erfordert die Erstellung proprietärer Datensätze – etwa durch menschliche Präferenz‑Annotationen – erhebliche Investitionen.

Damit Datenbesitzer fundierte Entscheidungen über Curationsstrategien und Investitionen in neue Quellen treffen können, stellt sich die Frage: Wie lässt sich der Wert einzelner Datensätze bestimmen? Und wie können mehrere Eigentümer ihre Ressourcen bündeln, um gemeinsam bessere Modelle zu trainieren und die Vorteile gerecht zu verteilen?

Die Antwort liegt in der Datenbewertung, die seit langem von der Machine‑Learning‑Community über kooperative Spieltheorie untersucht wird. Der Shapley‑Wert gilt als Standardkonzept, doch seine Berechnung ist extrem kostenintensiv, weil sie zahlreiche Modell‑Retrainings erfordert.

Die neue Studie zeigt, dass bei LLMs, die mit Direct Preference Optimization (DPO) trainiert werden, die Rechenlast drastisch reduziert werden kann. Durch die spezielle mathematische Struktur von DPO lässt sich der Shapley‑Wert skalierbar berechnen, ohne die üblichen, teuren Retrainings durchzuführen.

Diese Entdeckung eröffnet zahlreiche Anwendungsmöglichkeiten, bei denen Datenwertschätzung und große Sprachmodelle zusammenkommen. Sie ermöglicht es Unternehmen und Forschungseinrichtungen, Daten effizienter zu bewerten, Ressourcen gezielter einzusetzen und die Zusammenarbeit zwischen Datenbesitzern zu fördern.

Ähnliche Artikel