Learning Heuristics for the TSP by Policy Gradient.

Michel Deudon Pierre Cournut Alexandre Lacoste Yossiri Adulyasak Louis-Martin Rousseau

Published in: CPAIOR (2018)

Keyphrases

policy gradient
reinforcement learning
actor critic
learning process
supervised learning
learning tasks
search algorithm
cost function
metaheuristic
policy gradient methods