Greedy Multi-step Off-Policy Reinforcement Learning.

Yuhui Wang Pengcheng He Xiaoyang Tan

Published in: CoRR (2021)

Keyphrases

multi step
reinforcement learning
greedy algorithm
dynamic programming
lower bounding
function approximation
tumor classification
single step
k nearest neighbor
search algorithm
model free
knn
machine learning
reinforcement learning algorithms
td learning
markov decision processes
temporal difference
feature selection
text classification
semi supervised
action selection
evolutionary algorithm