Publication: On-policy Q-learning for adaptive optimal control.