The Optimal Reward Operator in Negative Dynamic Programming.

Ashok P. Maitra William D. Sudderth

Published in: Math. Oper. Res. (1992)

Keyphrases

dynamic programming
reinforcement learning
state space
optimal control
linear programming
stereo matching
locally optimal
average reward
globally optimal
exhaustive search
markov decision processes
worst case
pairwise
search algorithm
piecewise linear
case study
knowledge base
machine learning