State-Action Similarity-Based Representations for Off-Policy Evaluation.

Brahma S. Pavse Josiah P. Hanna

Published in: CoRR (2023)

Keyphrases

state action
temporal difference
reinforcement learning
evaluation function
function approximators
policy iteration
average reward
policy gradient
model free
least squares
markov decision process
function approximation
action space
markov decision processes
monte carlo
state space
stochastic games
learning algorithm
belief state
state transitions
optimal policy