Explicitly Coordinated Policy Iteration.

Yujing Hu Yingfeng Chen Changjie Fan Jianye Hao

Published in: IJCAI (2019)

Keyphrases

policy iteration
markov decision processes
model free
fixed point
optimal policy
reinforcement learning
least squares
sample path
finite state
temporal difference
policy evaluation
infinite horizon
average reward
cooperative
multi agent
markov decision problems
optimal control
markov decision process
dynamic programming
convergence rate
linear programming
optimal solution
function approximation
evaluation function
image sequences