TS-DP: Spekulatives Decoding beschleunigt Diffusion-Policy in Echtzeit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Diffusion Policy (DP) hat sich als leistungsstarke Methode für die Steuerung von Robotern etabliert, leidet jedoch unter hoher Inferenzlatenz und hohem Rechenaufwand, weil sie mehrere iterative Denoising-Schritte benötigt. Für Aufgaben, bei denen die Komplexität sich im Zeitverlauf ändert, reicht ein statischer Ansatz nicht aus – er kann die dynamische Anpassung der Rechenleistung nicht gewährleisten.

Statische Beschleunigungsmethoden wie Quantisierung reduzieren zwar die Kosten, verlieren aber an Flexibilität und können bei sich verändernden Aufgaben nicht die gewünschte Genauigkeit liefern. Spekulatives Decoding bietet eine verlustfreie Alternative, die noch wenig erforscht ist. Die Herausforderung besteht darin, die Qualität des Basismodells bei geringeren Kosten zu erhalten und gleichzeitig die Rechenzeit je nach Schwierigkeitsgrad der Aufgabe dynamisch anzupassen.

Mit dem neuen Framework Temporal‑aware Reinforcement‑based Speculative Diffusion Policy (TS‑DP) wird spekulatives Decoding erstmals mit zeitlicher Adaptivität kombiniert. Zunächst wird ein transformer‑basierter „Drafter“ distilliert, der das Basismodell imitiert und die teuren Denoising‑Aufrufe ersetzt. Anschließend steuert ein auf Reinforcement Learning basierender Scheduler die spekulativen Parameter in Echtzeit, um Genauigkeit und Effizienz optimal auszubalancieren.

Umfangreiche Experimente in verschiedenen Embodied‑Umgebungen zeigen, dass TS‑DP die Inferenzzeit um bis zu 4,17‑fach reduziert, während mehr als 94 % der generierten Entwürfe akzeptiert werden. Die erreichte Frequenz von 25 Hz ermöglicht eine echte Echtzeit‑Steuerung ohne Leistungsverlust, was die Diffusion‑Policy für anspruchsvolle Robotik‑Anwendungen deutlich attraktiver macht.

Ähnliche Artikel