首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
基于EIasticSearch的食品安全搜索引擎的实现
作者姓名:
董哲
祝福松
摘 要:
针对通用搜索引擎收录有关食品安全资源库不全、重复等问题,构建一套较为完整的食品安全资源库就尤为重要.本文在现有框架的基础上构建食品安全资源库,选用Scrapy-redis框架对网站进行分布式爬取.通过布隆过滤器对爬取的URL进行去重,Simhash算法对爬取的资源进行相似度判别,过滤掉相似度高的资源,提高资源库的质量....
关 键 词:
食品安全搜索引擎
分布式爬虫
Elasticsearch
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号