Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path.

Muhammad Aneeq uz Zaman Alec Koppel Sujay Bhatt Tamer Basar

Published in: AISTATS (2023)

Keyphrases

sample path
reinforcement learning
asymptotic analysis
policy iteration
serial inventory systems
large deviations
function approximation
machine learning
markov chain
markov decision processes
model free
dynamic programming
probabilistic model
monte carlo
bayesian inference