Batch-Constraint Inverse Reinforcement Learning.

Mao Chen Li Wan Chunyan Gou Jiaolu Liao Shengjiang Wu

Published in: PRICAI (3) (2021)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
decision making
temporal difference
reward function
artificial intelligence
cost function
hidden markov models
np hard
constraint satisfaction
gaussian process