LLMs stimmen stark mit menschlichen Bewertungen emotionaler Stimuli überein

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Emotionen prägen unser Verhalten und Denken – sei es im Alltag oder in Hochdrucksituationen. Um zu verstehen, wie große Sprachmodelle (LLMs) in solchen Kontexten eingesetzt werden können, wurde untersucht, wie sie emotionale Inhalte bewerten.

Forscher sammelten Bewertungen von populären LLMs zu Wort- und Bilddatensätzen, die zuvor von Menschen hinsichtlich ihrer emotionalen Wirkung bewertet wurden. Dabei zeigte sich, dass GPT‑4o die menschlichen Einschätzungen in den meisten Fällen sehr genau nachahmt, mit Korrelationen von r ≥ 0,9.

Die Übereinstimmung war besonders stark bei der Bewertung von Glück, während die Einschätzung von Erregung (Arousal) weniger exakt war. Insgesamt passten die LLMs besser zu einem fünf‑Kategorien‑Modell (Glück, Wut, Traurigkeit, Angst, Ekel) als zu einer zweidimensionalen Skala aus Erregung und Valenz.

Ein weiteres Ergebnis war, dass die Bewertungen der LLMs deutlich homogener waren als die der Menschen. Diese Erkenntnisse geben Aufschluss darüber, wie KI‑Agenten emotionale Stimuli interpretieren und zeigen sowohl Gemeinsamkeiten als auch Unterschiede zu biologischen Reaktionen.

Die Studie liefert wichtige Grundlagen für die Integration von LLMs in Rollen, die emotionale Sensibilität erfordern, und betont die Notwendigkeit, die Grenzen zwischen menschlicher und künstlicher Emotionalität zu verstehen.

Ähnliche Artikel