Deterministic Policy Optimization by Combining Pathwise and Score Function Estimators for Discrete Action Spaces.

Daniel Levy Stefano Ermon

Published in: AAAI (2018)

Keyphrases

action space
score function
continuous action
continuous state spaces
continuous state
state space
state and action spaces
policy search
real valued
markov decision processes
control policies
reinforcement learning
interval valued
action selection
stochastic processes
optimal policy
state dependent
fuzzy numbers
intuitionistic fuzzy
partially observable markov decision processes
markov decision process
state action
single agent
decision problems
probabilistic model
evolutionary algorithm
genetic algorithm