Publication: Off-Policy Q-Learning for Infinite Horizon LQR Problem with Unknown Dynamics.