A Tale of Sampling and Estimation in Discounted Reinforcement Learning.

Alberto Maria Metelli Mirco Mutti Marcello Restelli

Published in: AISTATS (2023)

Keyphrases

reinforcement learning
markov decision processes
optimal policy
dynamic programming
machine learning
importance sampling
estimation algorithm
markov decision process
accurate estimation
state space
robotic control
data sets
multi agent
total reward
multi agent reinforcement learning
average reward
finite horizon
reinforcement learning algorithms
infinite horizon
estimation error
optimal control
function approximation
active learning
learning algorithm
temporal difference
semi parametric
policy search