DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections.

Ofir Nachum Yinlam Chow Bo Dai Lihong Li

Published in: NeurIPS (2019)

Keyphrases

stationary distribution
markov chain
random walk
product form
queue length
sufficient conditions
transition probabilities
queueing networks
steady state
initial state
queueing model
state dependent
service times
dynamic programming
optimal policy
parameter estimation
probabilistic model
neural network
service rates