LLMs im Humor: Oogiri‑Analyse offenbart Empathie‑Lücke
Eine neue Studie auf arXiv untersucht, wie gut moderne Large Language Models (LLMs) im Bereich des Computational Humors abschneiden. Dabei wird das japanische Improvisationsspiel Oogiri herangezogen, das besonders komplexe humoristische Elemente erfordert.
Die Forscher erweiterten bestehende Oogiri‑Datensätze um neue Quellen und fügten anschließend von LLMs generierte Antworten hinzu. Anschließend wurden die Texte von menschlichen Experten anhand von fünf‑Punkte‑Skalen in sechs Dimensionen bewertet: Neuheit, Klarheit, Relevanz, Intelligenz, Empathie und Gesamteindruck der Humorhaftigkeit.
Die Ergebnisse zeigen, dass LLMs zwar in der Lage sind, Oogiri‑Antworten zu erzeugen, die zwischen niedriger und mittlerer menschlicher Leistung liegen, jedoch deutlich an Empathie mangeln. Dieser Mangel erklärt, warum die Modelle die humoristische Qualität von Texten nicht zuverlässig einschätzen können. Korrelationsanalysen verdeutlichen zudem, dass LLMs stärker auf Neuheit setzen, während menschliche Beurteiler andere Kriterien gewichten.
Die Arbeit unterstreicht die Notwendigkeit, humoristische Bewertungssysteme multidimensional zu gestalten und legt nahe, dass zukünftige LLM‑Entwicklungen gezielt Empathie‑Komponenten integrieren sollten, um authentischere und wirkungsvollere humoristische Inhalte zu erzeugen.