Publication: Statistical feature extraction for cross-language web content quality assessment.