SayNext-Bench: LLMs versagen bei Vorhersage menschlicher Reaktionen – Multimodalität entscheidend

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Eine neue Veröffentlichung auf arXiv (2602.00327v1) beleuchtet, warum moderne große Sprachmodelle (LLMs) bei der Vorhersage der nächsten Äußerung in menschlichen Dialogen noch immer Schwierigkeiten haben. Trotz ihrer beeindruckenden Fähigkeit, fließende Gespräche zu führen, zeigen die Autoren, dass selbst führende Modelle kaum in der Lage sind, die nächste menschliche Reaktion korrekt vorherzusagen.

Der Grund liegt laut den Forschern in der fehlenden Berücksichtigung multimodaler Signale. Menschen nutzen Gestik, Blickrichtung und emotionale Nuancen, um die nächsten Worte ihres Gesprächspartners zu antizipieren – ein Ansatz, den LLMs bislang vernachlässigt haben. Um dieses Problem systematisch zu untersuchen, stellen die Autoren das Benchmark „SayNext-Bench“ vor, das LLMs und multimodale LLMs (MLLMs) auf ihre Fähigkeit prüft, kontextabhängige Antworten aus einer Vielzahl realer Szenarien vorherzusagen.

Zur Unterstützung des Benchmarks wurde das umfangreiche Datenset „SayNext-PC“ erstellt, das Dialoge mit reichhaltigen multimodalen Hinweisen enthält. Aufbauend darauf entwickelt das Team das duale Vorhersagemodell „SayNext-Chat“, das kognitiv inspiriert ist und die aktive Vorhersageverarbeitung in Gesprächen nachahmt. Experimentelle Ergebnisse zeigen, dass SayNext-Chat die aktuellen Spitzen-MLLMs in Bezug auf lexikalische Übereinstimmung, semantische Ähnlichkeit und emotionale Konsistenz übertrifft.

Die Studie demonstriert damit die Machbarkeit einer nächsten Äußerungsvorhersage auf Basis multimodaler Signale und unterstreicht die unverzichtbare Rolle dieser Signale sowie die Notwendigkeit einer aktiv vorhersagenden Verarbeitung für eine natürliche menschliche Interaktion. Die Autoren hoffen, mit diesem Ansatz einen neuen Forschungsimpuls für die Entwicklung von menschenähnlicheren, kontextsensitiven Modellen zu setzen.

Ähnliche Artikel