Transformers can optimally learn regression mixture models.

Reese Pathak Rajat Sen Weihao Kong Abhimanyu Das

Published in: CoRR (2023)

Keyphrases

mixture model
model selection
gaussian mixture model
em algorithm
density estimation
probabilistic model
generative model
regression model
mixture modeling
unsupervised learning
expectation maximization
language model
maximum likelihood
automatic model selection
probability density function
cross validation
mixture components
pattern recognition
image processing
log linear models
subspace analysis
computer vision
finite mixtures
learning algorithm