On learning history-based policies for controlling Markov decision processes.

Gandharv Patil Aditya Mahajan Doina Precup

Published in: AISTATS (2024)

Keyphrases

markov decision processes
reinforcement learning
optimal policy
partially observable
macro actions
markov decision process
supervised learning
state space
model based reinforcement learning
learning algorithm
policy iteration
decision theoretic planning
decision processes
infinite horizon
stochastic games
finite state
decision problems
action sets
reachability analysis
dynamic programming
transition matrices