Integral Policy Iteration for Zero-Sum Games with Completely Unknown Nonlinear Dynamics.

Hongliang Li Derong Liu Ding Wang

Published in: ICONIP (1) (2013)

Keyphrases

nonlinear dynamics
policy iteration
markov decision processes
fixed point
model free
optimal policy
least squares
sample path
reinforcement learning
neural network
dynamical systems
markov decision process
temporal difference
average reward
optimal control
finite state
convergence rate
policy evaluation
optimal strategy
linear programming
infinite horizon
state space
function approximation
dynamic programming
imperfect information
markov decision problems
asymptotic analysis
optimal solution
markov chain