Learning in Observable POMDPs, without Computationally Intractable Oracles.

Noah Golowich Ankur Moitra Dhruv Rohatgi

Published in: NeurIPS (2022)

Keyphrases

search algorithm
reinforcement learning
learning process
neural network
learning algorithm
prior knowledge
supervised learning
active learning
dynamic programming
learning systems
mobile devices
state space
markov chain
unsupervised learning
markov decision processes
finite state