Mapping Language to Programs using Multiple Reward Components with Inverse Reinforcement Learning.

Sayan Ghosh Shashank Srivastava

Published in: CoRR (2021)

Keyphrases

inverse reinforcement learning
partially observable environments
bayesian nonparametric
reward function
preference elicitation
reinforcement learning
objective function