基于弱监督学习的中文百科数据属性抽取 |
| |
作者姓名: | 贾真 杨燕 何大可 |
| |
作者单位: | 西南交通大学信息科学与技术学院; |
| |
基金项目: | 国家自然科学基金(61170111,61202043,61262058) |
| |
摘 要: | 提出基于弱监督学习的属性抽取方法,利用知识库中已有结构化的属性信息自动获取训练语料,有效解决了训练语料不足问题。针对训练语料存在的噪声问题,提出基于关键词过滤的训练语料优化方法。提出n元模式特征提取方法,该特征能够缓解传统n-gram特征稀疏性问题。实验数据源来自互动百科,从互动百科信息盒中抽取结构化属性信息构建知识库,从百科条目文本中自动获取训练数据和测试数据。实验结果表明,关键词过滤能有效提高训练语料的质量,与传统n-gram特征相比,n元模式特征能够提高属性抽取的性能。
|
关 键 词: | 属性抽取 特征提取 关系抽取 弱监督学习 |
本文献已被 CNKI 等数据库收录! |
|