Policy teaching through reward function learning.

Haoqi Zhang David C. Parkes Yiling Chen

Published in: EC (2009)

Keyphrases

inverse reinforcement learning
learning process
reward function
online learning
reinforcement learning
partially observable
learning algorithm
optimal policy
maximum entropy
learning environment
complex systems
reinforcement learning algorithms
state action