Reward-Conditioned Policies.

Aviral Kumar Xue Bin Peng Sergey Levine

Published in: CoRR (2019)

Keyphrases

reward function
reinforcement learning
expected reward
optimal policy
total reward
markov decision processes
bayes risk
average reward
discounted reward
real time
reinforcement learning algorithms
long run
linear programming
databases
markov decision process
control policies
state space
management policies
multi agent
bayesian networks