Continuous Deep Maximum Entropy Inverse Reinforcement Learning using online POMDP.

Júnior A. R. Silva Valdir Grassi Jr.Denis Fernando Wolf

Published in: ICAR (2019)

Keyphrases

maximum entropy
inverse reinforcement learning
reward function
partially observable environments
maximum entropy principle
markov models
preference elicitation
reinforcement learning
conditional random fields
transition probabilities
partially observable
markov decision processes
pairwise
temporal difference