GameTalk: LLMs lernen strategische Gespräche – neue Maßstäbe gesetzt
Eine neue Studie aus dem arXiv-Repository präsentiert GameTalk, ein Framework, das große Sprachmodelle (LLMs) darauf trainiert, strategische Entscheidungen in mehrteiligen Gesprächen zu treffen. Im Gegensatz zu bisherigen Ansätzen, die sich auf einzelne Entscheidungen konzentrieren, optimiert GameTalk ein globales Ziel über die gesamte Konversation hinweg. Dazu werden gängige Feinabstimmungsverfahren wie GRPO, DPO und STaR angepasst, sodass die Belohnungsfunktion die komplette Interaktion berücksichtigt.
Die Autoren testen das System an einer Reihe komplexer Spiele, die unterschiedliche Fähigkeiten wie logisches Denken, Koordination und Gegnermodellierung fordern. Die Ergebnisse zeigen, dass GameTalk deutlich bessere Leistungen erzielt als ungefeinabgestimmte Modelle. Besonders die Belohnungsformulierung mit DPO führt zu den stärksten Verbesserungen. Diese Erkenntnisse unterstreichen das Potenzial von konversationeller Feinabstimmung, LLMs zu ermöglichen, in interaktiven Umgebungen zu denken, zu verhandeln und zu handeln.