Meta Reinforcement Learning for Heuristic Planing.

Ricardo Luna Gutierrez Matteo Leonetti

Published in: ICAPS (2021)

Keyphrases

reinforcement learning
dynamic programming
optimal solution
multi agent
markov decision processes
state space
search algorithm
function approximation
simulated annealing
temporal difference learning
stochastic approximation
policy search
exploration strategy
learning process
mobile robot
learning problems
search strategies
beam search
robotic control