Stochastic policy search for variance-penalized semi-Markov control.

Abhijit Gosavi Mandar Purohit

Published in: WSC (2011)

Keyphrases

semi markov
policy search
reinforcement learning
control system
least squares
maximum likelihood
sufficient conditions
monte carlo
neural network
continuous state
optimal control
steady state
monte carlo methods
control strategies
control strategy
planning problems
model selection
machine learning