Finely Tuned, 2 Billion Token Based Word Embeddings for Portuguese.

João Rodrigues António Branco

Published in: LREC (2018)

Keyphrases

n gram
word recognition
word sense disambiguation
keywords
dimensionality reduction
vector space
linguistic information
noun phrases
lexical features
feature extraction
unknown words
related words
text corpus
word segmentation
euclidean space
high dimensional data
high dimensional
pattern recognition