Image‑Seeking Intent Prediction: LLMs ermöglichen proaktive Bildanfragen für nahtlose Shopping‑Erfahrung
Große Sprachmodelle (LLMs) verändern die Art und Weise, wie Kunden online einkaufen, indem sie personalisierte Suchergebnisse, Empfehlungen und Interaktionen über verschiedene Geräte hinweg liefern. Immer mehr Käufer nutzen gleichzeitig Sprachassistenten, Smartphones, Tablets und Smart‑Displays, was neue Möglichkeiten für die Optimierung der Nutzererfahrung eröffnet.
Ein zentrales Problem ist, wann ein Sprach‑Suchanfrage visuelle Unterstützung erfordert und ob der Nutzer zu einem bildschirmfähigen Gerät gewechselt werden sollte. Zu häufige oder ungenaue Vorschläge können die Erfahrung stören, während präzise Empfehlungen die Produktentdeckung deutlich verbessern.
Um dieses Problem anzugehen, wurde die Aufgabe „Image‑Seeking Intent Prediction“ entwickelt. Dabei wird ein Modell namens IRP (Image Request Predictor) trainiert, das aus der gesprochenen Suchanfrage und den zugehörigen Produktmetadaten vorhersagt, ob ein Bild angezeigt werden soll. Das Training basiert auf mehr als 900 000 Voice‑Queries, den damit verbundenen Produktsuchen und Verhaltenssignalen wie der Interaktion mit Bildkarussells.
Die Ergebnisse zeigen, dass die Kombination von semantischen Merkmalen der Anfrage mit Produktdaten – insbesondere wenn diese durch leichte Zusammenfassungen angereichert werden – die Vorhersagegenauigkeit signifikant steigert. Durch die Einführung einer differenzierbaren, präzisionsorientierten Verlustfunktion lassen sich zudem Fehlalarme reduzieren. Diese Fortschritte demonstrieren das Potenzial von LLMs, intelligente, geräteübergreifende Shopping‑Assistenten zu schaffen, die proaktiv auf die Bedürfnisse der Nutzer eingehen.