An inverse reinforcement learning algorithm for semi-Markov decision processes.

Chuanfang Tan Yanjie Li Yuhu Cheng

Published in: SSCI (2017)

Keyphrases

semi markov decision processes
markov decision processes
average reward
long run
optimal policy
monte carlo
reinforcement learning
lower bound
policy iteration