On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces.

Amrit Singh Bedi Souradip Chakraborty Anjaly Parayil Brian M. Sadler Pratap Tokekar Alec Koppel

Published in: CoRR (2022)

Keyphrases

action space
state space
markov decision processes
state and action spaces
real valued
reinforcement learning
control policies
continuous state spaces
continuous state
action selection
state action
stochastic processes
markov decision process
optimal policy
markov decision problems
reinforcement learning problems
single agent
dynamic programming
learning algorithm
skill learning
continuous action
function approximators
reinforcement learning algorithms
finite state
state variables
markov chain
probabilistic model
mobile robot