Neural Contextual Bandits via Reward-Biased Maximum Likelihood Estimation.

Yu-Heng Hung Ping-Chun Hsieh

Published in: CoRR (2022)

Keyphrases

maximum likelihood estimation
multi armed bandit
maximum likelihood
em algorithm
reinforcement learning
probability distribution
parameter estimation
multivariate gaussian
mixture of gaussians
expectation maximization
density function
probability density
boltzmann machine
learning rules
state space
poisson noise