Estimation of deduplication ratios in large data sets.

Danny Harnik Oded Margalit Dalit Naor Dmitry Sotnikov Gil Vernik

Published in: MSST (2012)

Keyphrases

data sets
statistically sound
databases
genetic algorithm
least squares
density estimation
estimation algorithm
feature selection
decision trees
similarity measure
search algorithm
data analysis
evolutionary algorithm
parametric models
maximum likelihood estimation
robust estimation
estimation accuracy
machine learning