Publication: Adaptive Step-size Policy Gradients with Average Reward Metric.