Publication: Supporting task-level fault-tolerance in HPC workflows by launching MPI jobs inside MPI jobs.