Off-Policy Confidence Interval Estimation with Confounded Markov Decision Process.

Chengchun Shi Jin Zhu Ye Shen Shikai Luo Hongtu Zhu Rui Song

Published in: CoRR (2022)

Keyphrases

markov decision process
interval estimation
markov decision processes
state space
optimal policy
infinite horizon
transition matrices
reinforcement learning
finite horizon
dynamic programming
collaborative filtering
temporal difference learning
policy iteration
finite state
partially observable
reinforcement learning algorithms
average cost
initial state
reward function
machine learning
dynamical systems
sufficient conditions
decision problems