Temporale Diffusion: Entscheidungsgeschwindigkeit um 25‑fach steigern
Die neue Methode „Temporal Diffusion Planner“ (TDP) nutzt die Kraft der Diffusion-Planung, um aus Offline‑Datensätzen leistungsstarke Policies zu lernen. Traditionell erzeugen bestehende Ansätze bei jedem Zeitschritt einen komplett neuen Plan, was enorme Rechenkosten verursacht und die Entscheidungsfrequenz stark einschränkt.
TDP folgt einer menschenähnlichen Strategie: Ein anfänglicher Plan wird erstellt und wird im Verlauf der Zeit zunehmend vage. Anstatt bei jedem Schritt einen neuen Plan zu generieren, werden nur wenige Denoising‑Schritte auf den vorherigen Plan angewendet. Dadurch sinkt die durchschnittliche Anzahl der Denoising‑Schritte, was die Effizienz der Entscheidungsfindung deutlich erhöht.
Ein automatisches Replanen sorgt dafür, dass der Plan nicht zu stark von der Realität abweicht. Diese adaptive Anpassung verhindert unerwartete Leistungsabfälle, die bei häufigen Planwechseln auftreten können.
In Experimenten auf der D4RL-Benchmarksuite konnte TDP die Entscheidungsgeschwindigkeit im Vergleich zu bisherigen Methoden um 11 bis 24,8‑fach steigern, während die erzielte Leistung gleichwertig oder sogar besser blieb. Diese Ergebnisse zeigen, dass die temporale Verteilung von Denoising-Schritten ein vielversprechender Ansatz ist, um Diffusion‑Planung in realen Anwendungen praktikabler zu machen.