Neural Value Iteration: KI-gestützte POMDP-Planung für große Probleme
In der Welt der partiell beobachtbaren Markov-Entscheidungsprozesse (POMDPs) hat die klassische Punkt-basierte Wertiteration lange die Oberhand behalten. Diese Verfahren arbeiten mit einer endlichen Menge von Hyperflächen, den sogenannten α-Vektoren, und führen Bellman-Rückkopplungen an erreichbaren Glaubenspunkten durch, bis eine Konvergenz erreicht ist. Doch sobald die Zustandsmenge wächst, explodiert die Dimensionalität der α-Vektoren und die Berechnungen werden schnell unpraktikabel.
Ein neues Konzept, das die Teilweise-linear-konvexe (PWLC)-Eigenschaft der Wertfunktion ausnutzt, eröffnet einen alternativen Weg: Statt α-Vektoren kann die Wertfunktion als endliche Menge neuronaler Netzwerke dargestellt werden. Diese Erkenntnis bildet die Basis für den sogenannten Neural Value Iteration-Algorithmus, der die Generalisierungskraft moderner neuronaler Netze mit dem bewährten Wertiterationsrahmen kombiniert.
Durch diese Kombination erzielt Neural Value Iteration nahezu optimale Lösungen, selbst bei POMDPs, die für herkömmliche Offline-Solver zu groß sind. Der Ansatz demonstriert, dass KI-gestützte Modelle nicht nur die Rechenlast reduzieren, sondern auch die Skalierbarkeit von POMDP-Planung erheblich verbessern können.