首页 | 本学科首页   官方微博 | 高级检索  
     

基于EIasticSearch的食品安全搜索引擎的实现
作者姓名:董哲  祝福松
摘    要:针对通用搜索引擎收录有关食品安全资源库不全、重复等问题,构建一套较为完整的食品安全资源库就尤为重要.本文在现有框架的基础上构建食品安全资源库,选用Scrapy-redis框架对网站进行分布式爬取.通过布隆过滤器对爬取的URL进行去重,Simhash算法对爬取的资源进行相似度判别,过滤掉相似度高的资源,提高资源库的质量....

关 键 词:食品安全搜索引擎  分布式爬虫  Elasticsearch
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号