Neue Bandit-Strategien für Edge-Inferenz: Konstanter Regret

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung (2511.10938v1) beleuchtet die Herausforderungen der Edge‑Inference und stellt ein erweitertes Cascade‑Bandit‑Modell vor.

Im Modell steht jeder Arm für ein Inferenzmodell, das mit einer Genauigkeit und einer Fehlerwahrscheinlichkeit verknüpft ist.

Vier Entscheidungsstrategien – Explore‑then‑Commit, Action Elimination, Lower Confidence Bound (LCB) und Thompson Sampling – wurden analysiert. Während die ersten beiden nach der Exploration festlegen und dadurch suboptimal bleiben, passen LCB und Thompson Sampling ihre Entscheidungen kontinuierlich an und erreichen einen konstanten Regret von O(1).

Simulationen bestätigen die theoretischen Erkenntnisse und unterstreichen, dass die Fähigkeit zur Anpassung entscheidend ist, um Edge‑Inference unter Unsicherheit effizient zu gestalten.

Ähnliche Artikel