Deterministic Policy Optimization by Combining Pathwise and Score Function Estimators for Discrete Action Spaces.

Daniel Levy Stefano Ermon

Published in: CoRR (2017)

Keyphrases

action space
score function
continuous state spaces
continuous action
continuous state
state space
policy search
real valued
markov decision processes
state and action spaces
interval valued
reinforcement learning
control policies
state action
optimal policy
partially observable markov decision processes
markov decision process
action selection
stochastic processes
markov decision problems
state dependent
finite state
fuzzy numbers
supervised learning
dynamic programming
control system
clustering algorithm