Inverse Reinforcement Learning with Agents' Biased Exploration Based on Sub-Optimal Sequential Action Data.

Fumito Uwano Satoshi Hasegawa Keiki Takadama

Published in: J. Adv. Comput. Intell. Intell. Informatics (2024)

Keyphrases

markov chain