Reward Only Training of Encoder-Decoder Digit Recognition Systems Based on Policy Gradient Methods.

Yilong Peng Hayato Shibata Takahiro Shinozaki

Published in: APSIPA (2018)

Keyphrases

digit recognition
reinforcement learning
video codec
decision trees
video sequences
training set
multi modal
policy gradient
decoding process
policy gradient methods