Online policy iteration solution for dynamic graphical games.

Mohammed I. Abouheaf Magdi Sadek Mahmoud

Published in: SSD (2016)

Keyphrases

policy iteration
optimal solution
markov decision processes
approximate dynamic programming
linear approximation
finite state
sample path
reinforcement learning
optimal policy
neural network
average reward
convergence rate
stochastic games
infinite horizon
least squares
lower bound
machine learning