MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts.

Maciej Pióro Kamil Ciebiera Krystian Król Jan Ludziejewski Sebastian Jaszczur

Published in: CoRR (2024)

Keyphrases

state space
parameter estimation
prior knowledge
probabilistic model
neural network
feature selection
statistical models
statistical model
exponential family
data sets
computational models
bayesian framework
dynamical systems
gaussian mixture model
optimal policy
model selection
maximum likelihood
data structure
reinforcement learning
decision trees