Fortgeschrittene Feinabstimmung für Multi-Agenten-Orchestrierung im großen Maßstab
Amazon hat neue Feinabstimmungsstrategien für Multi-Agenten-Systeme vorgestellt, die die Effizienz in mehreren Geschäftsbereichen deutlich steigern.
Durch gezielte Optimierungen konnten die Teams in der Amazon Pharmacy die Zahl gefährlicher Medikationsfehler um 33 % senken, während die Amazon Global Engineering Services einen Rückgang des menschlichen Aufwands um 80 % verzeichnen konnten. In der Qualitätsbewertung von Amazon A+ stieg die Genauigkeit von 77 % auf beeindruckende 96 %.
Die Erfolge basieren auf einer Kombination bewährter und innovativer Techniken: Supervised Fine‑Tuning (SFT) und Proximal Policy Optimization (PPO) bilden die Basis, während Direct Preference Optimization (DPO) die menschliche Ausrichtung verbessert. Für die komplexen Agentenarchitekturen kommen fortschrittliche Reinforcement‑Learning‑Ansätze wie Grouped‑based Reinforcement Learning from Policy Optimization (GRPO), Direct Advantage Policy Optimization (DAPO) und Group Sequence Policy Optimization (GSPO) zum Einsatz.
Diese Methoden ermöglichen eine skalierbare, agentenbasierte Orchestrierung, die sowohl die Sicherheit als auch die Produktivität in großem Umfang erhöht.
Amazon plant, die Ansätze weiter zu verfeinern und in weiteren Geschäftsbereichen einzusetzen, um die Leistungsfähigkeit seiner KI‑gestützten Systeme kontinuierlich zu steigern.