Interpretierbares Framework für verantwortungsvolle synthetische Daten in emotionalen Texten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Emotionserkennung in sozialen Medien ist entscheidend, um die öffentliche Stimmung zu verstehen. Gleichzeitig sind die Kosten für API-Zugriffe und Plattformbeschränkungen für Trainingsdaten immer höher geworden. Ein neues, interpretierbares Framework nutzt Shapley Additive Explanations (SHAP), um die Generierung von synthetischen Textdaten durch große Sprachmodelle (LLM) gezielt zu steuern.

Durch die Einbindung von SHAP können die wichtigsten Merkmale, die ein Modell für die Klassifizierung von Emotionen verwendet, identifiziert und in den Generierungsprozess einfließen. Mit einer ausreichenden Menge an Ausgangsdaten erreicht die SHAP-gesteuerte Methode die gleiche Leistung wie echte Daten, übertrifft dabei naive Generierungsmethoden deutlich und verbessert die Klassifikation besonders bei unterrepräsentierten Emotionen.

Eine sprachliche Analyse zeigt jedoch, dass die synthetischen Texte weniger Wortschatzvielfalt aufweisen und weniger persönliche oder zeitlich komplexe Ausdrücke enthalten als authentische Beiträge. Das Ergebnis verdeutlicht, dass synthetische Daten zwar praktisch und verantwortungsbewusst erzeugt werden können, aber immer noch Einschränkungen hinsichtlich ihrer Authentizität besitzen.

Dieses Werk liefert einen praxisnahen Ansatz für die verantwortungsvolle Erzeugung synthetischer Daten und wirft gleichzeitig einen kritischen Blick auf die Grenzen dieser Technik. Es unterstreicht, dass die Zukunft vertrauenswürdiger KI davon abhängt, die Balance zwischen Nutzen und Echtheit der Daten sorgfältig zu navigieren.

Ähnliche Artikel