Publication: Segmenting DNA sequence into 'words' based on statistical language model