A Policy Gradient Method for Confounded POMDPs.

Mao Hong Zhengling Qi Yanxun Xu

Published in: CoRR (2023)

Keyphrases

gradient method
policy gradient
actor critic
convergence rate
policy search
negative matrix factorization
partially observable markov decision processes
step size
optimization methods
convex formulation
signal processing
genetic algorithm
face recognition
reinforcement learning
k means
partially observable