Online Markov Decision Processes With Kullback-Leibler Control Cost.

Peng Guan Maxim Raginsky Rebecca M. Willett

Published in: IEEE Trans. Autom. Control. (2014)

Keyphrases

markov decision processes
kullback leibler
average cost
finite state
optimal policy
state space
transition matrices
reinforcement learning
dynamic programming
kl divergence
cross entropy
decision theoretic planning
distance measure
policy iteration
kullback leibler divergence
infinite horizon
optimal control
average reward
long run
markov decision process
machine learning
information theory
real time dynamic programming
information theoretic
mutual information
collaborative filtering
semi supervised
cost function
image segmentation