Minimax-optimaler Regret-Bound für Convex Optimization mit Zwei-Punkt Feedback
In der Online Convex Optimization (OCO) mit Zwei-Punkt Bandit-Feedback versucht ein Spieler, eine Folge von gegnerisch erzeugten konvexen Verlustfunktionen zu minimieren, wobei er lediglich die Funktionswerte an zwei Pu…