Optimal Contextual Bandits with Knapsacks under Realizability via Regression Oracles.

Yuxuan Han Jialin Zeng Yang Wang Yang Xiang Jiheng Zhang

Published in: AISTATS (2023)

Keyphrases

optimal solution
dynamic programming
test cases
regression model
optimal design
regression method
neural network
information retrieval
reinforcement learning
knapsack problem
linear regression
piecewise linear
multi armed bandit