Online Markov Decision Processes with Aggregate Bandit Feedback.

Alon Cohen Haim Kaplan Tomer Koren Yishay Mansour

Published in: CoRR (2021)

Keyphrases

markov decision processes
finite state
state space
decision theoretic planning
policy iteration
dynamic programming
online learning
transition matrices
optimal policy
reinforcement learning
reachability analysis
partially observable
state and action spaces
factored mdps
planning under uncertainty
finite horizon
decision processes
markov decision process
infinite horizon
average cost
action sets
decision diagrams
reinforcement learning algorithms
model based reinforcement learning
action space
average reward
sufficient conditions
evaluation function