Sequential Banner Design Optimization with Deep Reinforcement Learning.

Yusuke Kondo Xueting Wang Hiroyuki Seshime Toshihiko Yamasaki

Published in: ISM (2021)

Keyphrases

reinforcement learning
state space
sequential search
markov decision processes
control problems
temporal difference
multi agent
optimal policy
belief nets
real time
deep learning
optimal control
case study
learning algorithm
machine learning
supervised learning
action selection
search engine
temporal difference learning
transition model
neural network