Gaussian Process Aggregation verbessert MCTS bei kontinuierlichen Aktionen
Monte‑Carlo‑Tree‑Search (MCTS) ist ein zentraler Algorithmus für Online‑Planung und wird besonders dann eingesetzt, wenn die verfügbare Rechenzeit knapp ist, aber dennoch die bestmögliche Leistung erzielt werden soll. In der Praxis wird häufig die root‑parallele Variante von MCTS verwendet, bei der mehrere Threads gleichzeitig die Wurzel des Baumes erkunden.
In Umgebungen mit kontinuierlichen Aktionsräumen stellt sich die Frage, wie die von den einzelnen Threads gesammelten Statistiken sinnvoll zusammengeführt werden können. Dieses Problem ist bislang wenig untersucht worden, obwohl die Qualität der Aggregation einen entscheidenden Einfluss auf die Gesamtleistung hat.
Die neue Methode nutzt Gaussian‑Process‑Regression, um für vielversprechende, aber noch nicht ausprobierte Aktionen geschätzte Wertfunktionen zu erzeugen. Auf diese Weise kann das System zusätzliche Informationen generieren, ohne dass zusätzliche Umgebungsinteraktionen erforderlich sind.
Durch eine systematische Evaluation in sechs unterschiedlichen Domänen konnte gezeigt werden, dass die Gaussian‑Process‑Aggregation bestehende Aggregationsstrategien übertrifft. Der Leistungsgewinn kommt mit nur einem moderaten Anstieg der Inferenzzeit einher.
Diese Ergebnisse deuten darauf hin, dass die Kombination von MCTS und Gaussian‑Process‑Regression ein vielversprechender Ansatz ist, um die Effizienz von Planungsalgorithmen in kontinuierlichen Aktionsräumen weiter zu steigern.