基于弱监督学习的中文百科数据属性抽取期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于弱监督学习的中文百科数据属性抽取

引用本文：	贾真,杨燕,何大可.基于弱监督学习的中文百科数据属性抽取[J].电子科技大学学报(社会科学版),2014(5).

作者姓名：	贾真杨燕何大可

作者单位：	西南交通大学信息科学与技术学院;

基金项目：	国家自然科学基金(61170111,61202043,61262058)

摘要：	提出基于弱监督学习的属性抽取方法,利用知识库中已有结构化的属性信息自动获取训练语料,有效解决了训练语料不足问题。针对训练语料存在的噪声问题,提出基于关键词过滤的训练语料优化方法。提出n元模式特征提取方法,该特征能够缓解传统n-gram特征稀疏性问题。实验数据源来自互动百科,从互动百科信息盒中抽取结构化属性信息构建知识库,从百科条目文本中自动获取训练数据和测试数据。实验结果表明,关键词过滤能有效提高训练语料的质量,与传统n-gram特征相比,n元模式特征能够提高属性抽取的性能。
关键词：	属性抽取特征提取关系抽取弱监督学习
本文献已被 CNKI 等数据库收录！