ε-Policy Gradient for Online Pricing.

Lukasz Szpruch Tanut Treetanthiploet Yufei Zhang

Published in: CoRR (2024)

Keyphrases

policy gradient
parametric optimization
reinforcement learning
function approximation
approximation methods