基于特征码的大规模XML文档去重研究 |
| |
作者姓名: | 韩正服 杨喜权 张一鸣 丛荣华 |
| |
作者单位: | 吉林大学网络中心 长春130021(韩正服),东北师范大学计算机学院 长春130024(杨喜权,张一鸣,丛荣华) |
| |
基金项目: | 国家自然科学基金项目(60473042) |
| |
摘 要: | 本文总结了目前基于XML文档的一些信息检索技术,并通过一种特征码技术,将海量的XML文档中内容重复的文档检索出来。利用可以将XML文档映射到关系数据库中的X-RESTORE技术管理、存储、查找XML文档,并利用它的解析器快速定位特征码。将特征码通过高效的B 树来索引,大大提高系统的处理效率。
|
关 键 词: | XML 信息检索 特征码技术 X-RESTORE B 树 |
文章编号: | 1673-0194(2006)07-0075-03 |
修稿时间: | 2006-06-05 |
本文献已被 CNKI 维普 等数据库收录! |
|