Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes.

Luca Sabbioni Francesco Corda Marcello Restelli

Published in: ECML/PKDD (4) (2023)

Keyphrases

markov decision processes
reinforcement learning
optimal policy
stochastic games
learning algorithm
partially observable
step size
state space
supervised learning
finite state
decision processes
policy gradient methods
objective function
search algorithm
linear programming
action space