Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap.

Mohammad Mehrabi Stefan Wager

Published in: CoRR (2024)

Keyphrases

markov decision processes
policy evaluation
policy iteration
reinforcement learning
state space
finite state
optimal policy
dynamic programming
planning under uncertainty
action space
infinite horizon
average reward
reinforcement learning algorithms
partially observable
decision processes
average cost
markov decision process
least squares
model free
markov decision problems
partially observable markov decision processes
reward function
machine learning