Online Markov Decision Processes with Aggregate Bandit Feedback.

Alon Cohen Haim Kaplan Tomer Koren Yishay Mansour

Published in: COLT (2021)

Keyphrases

markov decision processes
finite state
state space
reinforcement learning
planning under uncertainty
optimal policy
reachability analysis
partially observable
transition matrices
online learning
reinforcement learning algorithms
dynamic programming
factored mdps
average cost
decision theoretic planning
policy iteration
infinite horizon
average reward
action sets
finite horizon
markov decision process
reward function
model based reinforcement learning
decision diagrams
risk sensitive
state abstraction
total reward
multistage
real time dynamic programming