首页 | 本学科首页   官方微博 | 高级检索  
     

基于弱监督学习的中文百科数据属性抽取
作者姓名:贾真  杨燕  何大可
作者单位:西南交通大学信息科学与技术学院;
基金项目:国家自然科学基金(61170111,61202043,61262058)
摘    要:提出基于弱监督学习的属性抽取方法,利用知识库中已有结构化的属性信息自动获取训练语料,有效解决了训练语料不足问题。针对训练语料存在的噪声问题,提出基于关键词过滤的训练语料优化方法。提出n元模式特征提取方法,该特征能够缓解传统n-gram特征稀疏性问题。实验数据源来自互动百科,从互动百科信息盒中抽取结构化属性信息构建知识库,从百科条目文本中自动获取训练数据和测试数据。实验结果表明,关键词过滤能有效提高训练语料的质量,与传统n-gram特征相比,n元模式特征能够提高属性抽取的性能。

关 键 词:属性抽取  特征提取  关系抽取  弱监督学习
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号