首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于特征码的大规模XML文档去重研究
引用本文:韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化,2006,9(7):75-77.
作者姓名:韩正服  杨喜权  张一鸣  丛荣华
作者单位:吉林大学网络中心 长春130021(韩正服),东北师范大学计算机学院 长春130024(杨喜权,张一鸣,丛荣华)
基金项目:国家自然科学基金项目(60473042)
摘    要:本文总结了目前基于XML文档的一些信息检索技术,并通过一种特征码技术,将海量的XML文档中内容重复的文档检索出来。利用可以将XML文档映射到关系数据库中的X-RESTORE技术管理、存储、查找XML文档,并利用它的解析器快速定位特征码。将特征码通过高效的B 树来索引,大大提高系统的处理效率。

关 键 词:XML  信息检索  特征码技术  X-RESTORE  B  
文章编号:1673-0194(2006)07-0075-03
修稿时间:2006年6月5日
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号