A Reward Shaping Method based on Meta-LSTM for Continuous Control of Robot.

Jixun Yao Xiaoan Li Dengshan Huang

Published in: CSAI (2020)

Keyphrases

objective function
learning algorithm
computational complexity
dynamic programming
neural network
probabilistic model
state space
markov model