Explanation through Reward Model Reconciliation using POMDP Tree Search.

Benjamin D. Kraske Anshu Saksena Anna L. Buczak Zachary N. Sunberg

Published in: CoRR (2023)

Keyphrases

reinforcement learning
objective function
search algorithm
dynamic programming
cost function
tree search