Neuer Algorithmus SCaLE reduziert Kosten in Online-Optimierung mit Unsicherheit
In einem aktuellen Beitrag auf arXiv wird ein bahnbrechender Ansatz vorgestellt, der das lange bestehende Problem unbeschränkter Bewegungskosten in der Bandit‑Online‑Konvexoptimierung löst. Der neue Algorithmus SCaLE berücksichtigt hochdimensionale, dynamische quadratische Trefferkosten sowie ℓ₂‑Norm‑Wechselkosten in einem verrauschten Bandit‑Feedback‑Modell.
Für eine breite Klasse stochastischer Umgebungen liefert SCaLE erstmals einen verteilungsagnostischen, sublinearen dynamischen Regret‑Wert, ohne dass die Struktur der Trefferkosten vorher bekannt sein muss. Dabei wird ein innovatives spektrales Regret‑Analyse‑Verfahren eingesetzt, das die Regret‑Beiträge aus Eigenwert‑Fehlern und Eigenbasis‑Störungen getrennt quantifiziert.
Um die Wirksamkeit zu demonstrieren, wurden umfangreiche numerische Experimente gegen etablierte Online‑Learning‑Baselines durchgeführt. Die Ergebnisse bestätigen die theoretischen Vorhersagen und zeigen die statistische Konsistenz des neuen Algorithmus deutlich auf.