Learning Action Embeddings for Off-Policy Evaluation.

Matej Cief Jacek Golebiowski Philipp Schmidt Ziawasch Abedjan Artur Bekasov

Published in: ECIR (1) (2024)

Keyphrases

learning algorithm
reinforcement learning
learning tasks
active learning
monte carlo
supervised learning
markov decision processes
action selection