Trajectory Sampling Value Iteration: Improved Dyna Search for MDPs.

Yicheng Zhou Quan Liu Qi-ming Fu Zongzhang Zhang

Published in: AAMAS (2015)

Keyphrases

markov decision processes
state space
search algorithm
search space
optimal policy
reinforcement learning
policy iteration
dynamic programming
markov decision process
heuristic search
sample size
search strategies
factored mdps
branch and bound
decision theoretic planning
average reward
tree search algorithm
stochastic shortest path
finite horizon
trajectory data
random sampling
machine learning
image sequences
information retrieval