BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages.

Benjamin Heinzerling Michael Strube

Published in: CoRR (2017)

Keyphrases

pre trained
n gram
character n grams
training data
training examples
named entities
control signals
low dimensional
cross lingual
learning algorithm
hidden markov models
speech recognition
neural network
active learning
supervised learning
natural language processing