A Tractable Algorithm For Finite-Horizon Continuous Reinforcement Learning.

Phanideep Gampa Sairam Satwik Kondamudi Lakshmanan Kailasam

Published in: CoRR (2019)

Keyphrases

dynamic programming
reinforcement learning
computational complexity
cost function
learning algorithm
objective function
finite horizon
np hard
optimal policy
optimal solution
mathematical model
model free
probabilistic model
expectation maximization
markov decision processes
markov models