Learning Optimal Policies in Potential Mean Field Games: Smoothed Policy Iteration Algorithms.

Qing Tang Jiahao Song

Published in: SIAM J. Control. Optim. (2024)

Keyphrases

policy iteration
optimal policy
markov decision processes
reinforcement learning
model free
fixed point
learning algorithm
policy evaluation
average reward
infinite horizon
sample path
finite state
markov decision process
convergence rate
average reward reinforcement learning
finite horizon
least squares
markov decision problems
state space
optimal control
dynamic programming
partially observable
partially observable markov decision processes
temporal difference
markov random field
reward function
supervised learning
control policies
sufficient conditions