Gradient-based minimization for multi-expert Inverse Reinforcement Learning.

Davide Tateo Matteo Pirotta Marcello Restelli Andrea Bonarini

Published in: SSCI (2017)

Keyphrases

inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
reward function
data mining
multi criteria
objective function
multi agent
search algorithm
cost function
temporal difference