Neues RL-Framework verbessert emotionale Unterstützung durch LLMs
Ein neues Forschungsprojekt präsentiert RLFF‑ESC, ein end‑to‑end‑Framework, das große Sprachmodelle (LLMs) dazu befähigt, langfristig und flexibel emotionale Unterstützung zu bieten. Im Gegensatz zu bisherigen Systemen, die auf vordefinierten Strategien basieren, lernt RLFF‑ESC durch Verstärkungslernen dauerhafte, unterstützende Antwortfähigkeiten.
Der Ansatz nutzt ein mehragentenbasiertes Simulationsmodell, um zukünftige Dialogtrajektorien zu erzeugen und daraus zukunftsorientierte Belohnungen zu extrahieren. Auf Basis dieser Belohnungen wird ein spezielles Reward‑Modell trainiert, das anschließend die eigentliche Unterstützungs‑Policy steuert. Zusätzlich wird während der Antwortgenerierung ein expliziter Denkprozess eingebaut, der die Relevanz, Qualität und Kontextangemessenheit der Antworten weiter verbessert.
Die Wirksamkeit des Frameworks wurde an den Modellen Qwen2.5‑7B‑Instruct‑1M und LLaMA3.1‑8B‑Instruct getestet und auf zwei öffentlichen Datensätzen für emotionale Unterstützungskonversationen evaluiert. Die Ergebnisse zeigen, dass RLFF‑ESC die bestehenden Baselines in Bezug auf Zielerreichung und Antwortqualität deutlich übertrifft.