Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada.
João A. F. LutzCarlos A. HeuserPublished in: SBBD (Short Papers) (2013)
Keyphrases
- website
- web applications
- web pages
- web content
- web scale
- web resources
- web data
- web technologies
- gaussian mixture model
- em algorithm
- semantic web
- expectation maximization
- web mining
- web documents
- information sources
- generative model
- data mining
- database
- web information retrieval
- link analysis
- web communities
- linked data
- mixture model
- maximum likelihood
- xml documents
- metadata
- learning algorithm
- real time