Neural Value Iteration: KI-gestützte POMDP-Planung für große Probleme
In der Welt der partiell beobachtbaren Markov-Entscheidungsprozesse (POMDPs) hat die klassische Punkt-basierte Wertiteration lange die Oberhand behalten. Diese Verfahren arbeiten mit einer endlichen Menge von Hyperflächen, den sogenannten α-Vektoren, und führen Bellman-Rückkopplungen an erreichbaren Glaubenspunkten durch, bis eine Konvergenz erreicht ist. Doch sobald die Zustandsmenge wächst, explodiert die Dimensionalität der α-Vektoren und die Berechnungen werden schnell unpraktikabel.