Künstliche Daten: Warum ERM bei LLM-Generierung versagt

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit der zunehmenden Verbreitung von großen Sprachmodellen (LLMs) steigt die Menge an synthetisch erzeugtem Text enorm. Von Produktbewertungen bis zu Gerichtsakten – Inhalte, die einst als „natürlich“ galten, sind heute oft mit LLM-generierten Beispielen vermischt.

In einer neuen Untersuchung wird dieses Phänomen als Folge einer Reihe von Lernaufgaben modelliert, bei denen die Eingabedaten aus einer Mischung von echten und synthetischen Stichproben bestehen. Die Lernalgorithmen kennen dabei nicht, ob ein Beispiel von einem Menschen oder einer Maschine stammt.

Für die Aufgabe, den Mittelwert einer beliebigen d‑dimensionalen Verteilung zu schätzen, zeigt die Studie, dass ERM zwar zum wahren Mittelwert konvergiert, jedoch von einem Algorithmus übertroffen wird, der den Daten aus unterschiedlichen Generationen unterschiedliche Gewichte zuweist.

Im PAC‑Lernrahmen wird die Situation noch gravierender: ERM konvergiert nicht immer zum korrekten Konzept, was Parallelen zu den sogenannten Modell‑Collapse‑Studien aufzeigt. Dennoch existieren Algorithmen, die für beliebige VC‑Klassen und beliebige Mengen an Kontamination die richtige Hypothese erlernen können.

Ähnliche Artikel