Mind the Gap: Offline Policy Optimization for Imperfect Rewards.

Jianxiong Li Xiao Hu Haoran Xu Jingjing Liu Xianyuan Zhan Qing-Shan Jia Ya-Qin Zhang

Published in: CoRR (2023)

Keyphrases

optimization algorithm
reinforcement learning
reward function
markov decision processes
discrete optimization
artificial intelligence
optimization problems
optimal policy
constrained optimization
global optimization
genetic algorithm
optimization model
optimization method
cognitive science
optimization methods
mental states
differential evolution
evolution strategy
action selection
dynamic programming
asymptotically optimal
neural network
multiarmed bandit