Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes.

Luca Sabbioni Francesco Corda Marcello Restelli

Published in: CoRR (2023)

Keyphrases

markov decision processes
reinforcement learning
policy gradient methods
state space
step size
stochastic games
average reward
optimal policy
partially observable
decision processes
learning algorithm
learning tasks
policy gradient
finite state
supervised learning
action selection
temporal difference
policy iteration
reinforcement learning methods