State-Action Similarity-Based Representations for Off-Policy Evaluation.

Brahma S. Pavse Josiah Hanna

Published in: NeurIPS (2023)

Keyphrases

state action
reinforcement learning
temporal difference
function approximators
policy iteration
evaluation function
average reward
markov decision process
function approximation
policy gradient
model free
least squares
stochastic games
markov decision processes
action space
monte carlo
optimal policy
reinforcement learning algorithms
action selection
dynamic programming
machine learning