Online Learning in Kernelized Markov Decision Processes.

Sayak Ray Chowdhury Aditya Gopalan

Published in: CoRR (2018)

Keyphrases

markov decision processes
online learning
state space
finite state
dynamic programming
optimal policy
reinforcement learning
transition matrices
policy iteration
e learning
reinforcement learning algorithms
active learning
planning under uncertainty
reachability analysis
partially observable
average cost
finite horizon
decision theoretic planning
action sets
decision processes
factored mdps
infinite horizon
average reward
kernel function
discounted reward
search algorithm
risk sensitive
markov decision process