LLM-gestützte Datenannotation: ACT‑Pipeline reduziert menschliche Kosten um 90 %

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der heutigen Zeit, in der maschinelles Lernen stark von präzisen Labels abhängt, bleibt die Beschaffung solcher Daten ein kostspieliger und zeitintensiver Prozess. Neueste Ansätze nutzen große Sprachmodelle (LLMs) zur Annotation, doch die Qualität der automatisch generierten Labels erreicht noch nicht die menschliche Ebene.

Die neue Methode „Annotation with Critical Thinking“ (ACT) kombiniert die Stärken von LLMs als Annotatoren und als kritische Prüfer. Das Modell identifiziert potenzielle Fehler und markiert nur die fragwürdigsten Fälle für eine menschliche Überprüfung. Dadurch wird die Arbeitslast der Annotatoren drastisch reduziert, während die Datenqualität erhalten bleibt.

ACT ist vielseitig einsetzbar – von natürlicher Sprachverarbeitung über Computer Vision bis hin zu multimodalen Aufgaben – dank der Nutzung multimodaler LLMs. Durch umfangreiche Experimente wurden sieben zentrale Erkenntnisse gewonnen, die in leicht verständliche Richtlinien umgesetzt wurden. Zusätzlich liefert eine theoretische Analyse, wie die Verlustfunktion angepasst werden kann, damit Modelle, die mit ACT‑Daten trainiert werden, nahezu die gleiche Leistung wie vollständig menschlich annotierte Datensätze erzielen.

Die Ergebnisse sprechen für sich: Auf den meisten Benchmark‑Datensätzen konnte die Leistungsdifferenz auf unter 2 % reduziert werden, während gleichzeitig bis zu 90 % der menschlichen Kosten eingespart wurden. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung effizienterer und kostengünstigerer Datenannotation für KI‑Projekte aller Art.

Ähnliche Artikel