Dual Parallel Policy Iteration With Coupled Policy Improvement.

Yuhu Cheng Longyang Huang C. L. Philip Chen Xuesong Wang

Published in: IEEE Trans. Neural Networks Learn. Syst. (2024)

Keyphrases

policy iteration
markov decision processes
optimal policy
model free
reinforcement learning
fixed point
markov decision process
policy evaluation
least squares
average reward
sample path
approximate dynamic programming
infinite horizon
finite state
temporal difference
markov decision problems
actor critic
optimal control
linear programming
discounted reward
dynamic programming
state space
approximate policy iteration
long run
function approximation
decision problems
average cost
convergence rate
reward function
sufficient conditions