Neuer Ansatz: Eluder-Dimension lokalisiert – bei Bandit- und RL-Analyse
Eine neue Veröffentlichung auf arXiv (2601.09825v1) liefert einen entscheidenden Durchbruch in der Analyse von Bandit- und Reinforcement-Learning-Algorithmen. Der Beitrag zeigt, dass die bisherige, auf der Eluder-Dimension basierende Theorie nicht in der Lage ist, erste‑Ordnung‑Regret‑Grenzen zu erzielen, und legt dafür einen klaren unteren Grenzwert für generalisierte lineare Modellklassen fest.