Neue UCT-Strategien passen sich automatisch an Belohnungsmaßstab an
Der Upper Confidence Bounds For Trees (UCT)-Algorithmus ist nicht blind gegenüber der Belohnungsgröße, die in einem Spiel verwendet wird. Während bei Null‑Sum‑Spielen mit sparsamen Endbelohnungen wie –1, 0 oder 1 keine Probleme auftreten, stoßen viele moderne Spiele mit dichten Belohnungen und handverlesenen Skalen auf Schwierigkeiten, weil die Q‑Werte der Knoten stark variieren.