Neue Blaupause für kontinuierliche Verbesserung von Multi-Agenten-Einkaufsassistenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv-Papier (2603.03565v1) präsentiert einen praxisnahen Leitfaden zur Bewertung und Optimierung von konversationellen Einkaufsassistenten (CSAs). Die Autoren zeigen, wie die Übergänge von Prototypen zu produktionsreifen Systemen überwindet werden können, indem sie zwei bislang wenig erforschte Probleme adressieren: die Bewertung von mehrtägigen Interaktionen und die Optimierung eng verknüpfter Multi-Agenten‑Systeme.

Besonders im Lebensmitteleinkauf stellen unklare Nutzeranfragen, starke Präferenzabhängigkeiten sowie Budget- und Lagerbeschränkungen zusätzliche Komplexität dar. Um diese Herausforderungen zu meistern, entwickelt das Team ein mehrdimensionales Bewertungsschema, das die Gesamtqualität des Einkaufsprozesses in strukturierte Dimensionen zerlegt. Ergänzend wird ein kalibrierter LLM‑basierter „Judge“-Pipeline vorgestellt, die mit menschlichen Anmerkungen abgeglichen wird.

Aufbauend auf dieser Bewertungsbasis werden zwei ergänzende Prompt‑Optimierungsstrategien vorgestellt, die auf dem aktuellen Prompt‑Optimizer GEPA (Shao et al., 2025) aufbauen. Die erste Variante, Sub‑agent GEPA, optimiert einzelne Agentenknoten anhand lokaler Rubriken. Die zweite, MAMuT (Multi‑Agent Multi‑Turn) GEPA (Herrera et al., 2026), führt eine systemweite Optimierung durch, bei der Prompts über mehrere Agenten hinweg mittels mehrtägiger Simulation und Trajektorien‑Bewertung abgestimmt werden.

Die Autoren stellen ihre Rubrik‑Vorlagen und Leitfäden zur Evaluationsgestaltung öffentlich zur Verfügung, um Praktikern die Entwicklung von produktionsreifen CSAs zu erleichtern. Diese Arbeit liefert damit einen wertvollen, umsetzbaren Rahmen für die kontinuierliche Verbesserung von Multi‑Agenten‑Einkaufsassistenten.

Ähnliche Artikel