Look-ahead control of conveyor-serviced production station by using potential-based online policy iteration.

Tang Hao Arai Tamio

Published in: Int. J. Control (2009)

Keyphrases

policy iteration
markov decision processes
model free
control system
optimal control
sample path
reinforcement learning
policy evaluation
temporal difference
control strategy
infinite horizon
production system
linear programming
control problems
least squares
control policy
average reward
np hard
search space