Regret Analysis of the Posterior Sampling-based Learning Algorithm for Episodic POMDPs.

Dengwang Tang Rahul Jain Ashutosh Nayyar Pierluigi Nuzzo

Published in: CoRR (2023)

Keyphrases

learning algorithm
reinforcement learning
training data
dynamic programming
machine learning
data analysis
statistical analysis
monte carlo
state space
linear programming
parameter estimation