ShopSimulator: Neue Plattform zur Bewertung von LLM-Agenten im Online-Shopping
In der Welt des E‑Commerce werden immer mehr große Sprachmodelle (LLMs) als virtuelle Einkaufsassistenten eingesetzt. Damit diese Agenten wirklich nutzerorientierte Produktsuchen durchführen können, müssen sie persönliche Vorlieben erkennen, mehrstufige Gespräche führen und schließlich aus einer Vielzahl ähnlicher Artikel das passende auswählen. Bisher fehlte jedoch ein einheitliches Simulationsumfeld, das all diese Anforderungen gleichzeitig abbildet und zugleich Trainingsmöglichkeiten bietet.
Mit ShopSimulator – einer umfangreichen, chinesischen Einkaufsumgebung – wird dieses Problem adressiert. Die Plattform ermöglicht es, LLM‑Agenten in unterschiedlichen Szenarien zu testen und liefert dabei überraschende Ergebnisse: Selbst die leistungsstärksten Modelle erreichen weniger als 40 % vollständige Erfolgsraten. Die Fehleranalyse zeigt, dass Agenten besonders bei tiefgreifenden Suchvorgängen und langen Dialogen Schwierigkeiten haben, die richtigen Produkte zu finden, persönliche Hinweise ausgewogen einzusetzen und effektiv mit dem Nutzer zu interagieren.
Durch gezielte Trainingsstudien lässt sich jedoch deutlich verbessern. Die Kombination aus überwachten Feinabstimmungen (SFT) und Verstärkungslernen (RL) führt zu signifikanten Leistungssteigerungen. Die Entwickler von ShopSimulator planen, Code und Daten öffentlich zugänglich zu machen, sodass die Forschungsgemeinschaft die Plattform nutzen und weiterentwickeln kann.