Learning Optimal Deterministic Policies with Stochastic Policy Gradients.

Alessandro Montenegro Marco Mussi Alberto Maria Metelli Matteo Papini

Published in: CoRR (2024)

Keyphrases

learning algorithm
control policies
reinforcement learning
learning process
optimal policy
learning tasks
inverse reinforcement learning
stochastic domains
active learning
state space
online learning
asymptotically optimal
function approximators
policy gradient
management policies
stochastic optimization problems