An Accelerated Multi-level Monte Carlo Approach for Average Reward Reinforcement Learning with General Policy Parametrization.

Swetha Ganesh Vaneet Aggarwal

Published in: CoRR (2024)

Keyphrases

monte carlo
average reward reinforcement learning
markov chain
monte carlo simulation
optimal policy
monte carlo tree search
conditional density estimation
adaptive sampling
importance sampling
markovian decision
monte carlo methods
policy evaluation
simulation study
particle filter
matrix inversion
point processes
stochastic approximation
variance reduction
optimal strategy
model selection
kernel methods
reinforcement learning