PG3: Policy-Guided Planning for Generalized Policy Generation.

Ryan Yang Tom Silver Aidan Curtis Tomás Lozano-Pérez Leslie Pack Kaelbling

Published in: CoRR (2022)

Keyphrases

optimal policy
partially observable
search engine
markov decision process
data sets
information systems
reinforcement learning
dynamic programming
mobile robot
markov decision processes
asymptotically optimal
markov decision problems
policy making
reinforcement learning problems