首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为摆脱中文自动分词过程中对庞大词库和复杂分词处理程序的依赖,提出了中文关键词信息的提取方法.该方法采用基于2-grams的短语标引来进行中文关键词的抽取,首先采用2-grams方法提取出权重较大的2元关键词,再抽取能充分标引文章内容的短语关键词,以提高对文档内容的表达能力.  相似文献   

2.
基于中文文本主题提取的分词方法研究   总被引:8,自引:0,他引:8  
中文文本主题提取有助于用户对海量信息进行浓缩和提炼。而主题提取是以中文分词作为第一步,分词质量直接影响到文献主题提取的质量。本文提出了一种基于中文文本主题提取的分词方法,该方法以概念语义网络为分词词典,采用改进的最大匹配算法对文本进行切词,并同步完成主题词的规范工作。  相似文献   

3.
信息处理用藏文自动分词研究   总被引:3,自引:0,他引:3  
藏文自动分词研究是藏文信息处理领域的一项基础性工程,在研究藏语形式逻辑格、语义逻辑格、音势论等语法理论的基础上,借鉴汉语的分词理论和方法,充分利用藏语上下文语境,在不同藏语句子层面采用不同的处理方法。格切分用于句子结构层面,边界符判定用于短语切分,模式匹配用于词块切分,由此,提出了切分与格框架、标注一体化的藏语三级切分体系。  相似文献   

4.
中文电子病历实体关系抽取是构建医疗知识图谱,服务下游子任务的重要基础。目前,中文电子病例进行实体关系抽取仍存在因医疗文本关系复杂、实体密度大而造成医疗名词识别不准确的问题。针对这一问题,提出了基于对抗学习与多特征融合的中文电子病历实体关系联合抽取模型AMFRel (adversarial learning and multi-feature fusion for relation triple extraction),提取电子病历的文本和词性特征,得到融合词性信息的编码向量;利用编码向量联合对抗训练产生的扰动生成对抗样本,抽取句子主语;利用信息融合模块丰富文本结构特征,并根据特定的关系信息抽取出相应的宾语,得到医疗文本的三元组。采用CHIP2020关系抽取数据集和糖尿病数据集进行实验验证,结果显示:AMFRel在CHIP2020关系抽取数据集上的Precision为63.922%,Recall为57.279%,F1值为60.418%;在糖尿病数据集上的Precision、Recall和F1值分别为83.914%,67.021%和74.522%,证明了该模型的三元组抽取性能优于其他基线模...  相似文献   

5.
提出基于弱监督学习的属性抽取方法,利用知识库中已有结构化的属性信息自动获取训练语料,有效解决了训练语料不足问题。针对训练语料存在的噪声问题,提出基于关键词过滤的训练语料优化方法。提出n元模式特征提取方法,该特征能够缓解传统n-gram特征稀疏性问题。实验数据源来自互动百科,从互动百科信息盒中抽取结构化属性信息构建知识库,从百科条目文本中自动获取训练数据和测试数据。实验结果表明,关键词过滤能有效提高训练语料的质量,与传统n-gram特征相比,n元模式特征能够提高属性抽取的性能。  相似文献   

6.
在学习现在分词和过去分词作状语的用法时 ,我们始终提醒使用者注意分词短语的逻辑主语必须与主句的主语一致。例 :( 1)Singingandlaughing ,thepupilswentoutoftheclassroomandrantotheplayground .(现在分词短语的逻辑主语是Thepupils ,表示伴随动作。)( 2 )Standinginthemiddleofthefloor ,holdingherbathrobearoundherandtrailingadamptowelinonehand ,she…  相似文献   

7.
从中文姓名识别技术是中文分词领域的重要分支的角度,分析了传统统计中文切词方法正确率低的缺失,表现为基于机器学习方法的中文姓名识别技术对词典规模和语料库容量依赖性大的缺陷,以至于不能够有效地发现未登录词,降低了中文姓名识别的正确率;以中文姓氏用字为线索,提出了一种改善的无监督的中文姓名识别方法,在统计法的基础上,利用关联规则算法挖掘出与姓氏相关的强规则进行姓名识别。实验结果表明:此方法对词典规模和语料库依赖性较小,能够自动消除歧义,有效地发现未登录词,提高了中文姓名识别的正确率。  相似文献   

8.
1来稿要求来稿应论点明确、内容充实、数据可靠、逻辑严密、文字精炼、图表简明清晰。每篇论文必须包括中英文题名、中英文作者名、中英文作者单位、中英文作者单位所在地名及邮政编码、中英文摘要和关键词、正文、参考文献及第一作者简介。1.1题名中文题名不超过20个汉字,英文题名应与中文题名含义一致。1.2摘要采用第三人称写法,应具有独立性和自明性(200~300字),阐明研究的目的、方法、结果和结论。英文摘要应与中文摘要文意一致。1.3关键词中文关键词标注3~8个,选词要规范,英文关键词与中文关键词一一对应,不能采用英文缩写…  相似文献   

9.
新闻英语的语言和中文相比具有鲜明的特色,读者在阅读英文报刊时如不掌握其语言特点,就很难准确地理解原文的本意。据此,本文从分词短语、同位语使用、修辞手法、词汇和成语的运用上进行阐述,供学习者参考。  相似文献   

10.
文章通过质疑和答疑表述了以下看法:(1)就日常交际来说,西文需要分词连写而中文则未必,因为后者可以借助汉字特征辨识词界;(2)现在越来越多的人赞成实行中文分词连写,主要因为这有助于中文信息处理;(3)实行中文分词连写有利有弊,最大弊端是它给书写增添了负担;而开发推广中文词式书写编辑软件,不失为化解矛盾的可行办法。  相似文献   

11.
基于Web的信息抽取研究   总被引:2,自引:0,他引:2  
Web信息抽取是近十年来发展起来的一门数据挖掘技术。本文主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。  相似文献   

12.
英文产品说明书中的非谓语动词结构及其翻译   总被引:1,自引:0,他引:1  
产品说明书作为科技实用文体的一部分,承担着向消费者介绍产品的性能、作用、生产工艺、使用方法等多种信息的重要作用。为了能够在表述上尽量实现清楚(clearness)、简洁(conciseness)和准确(exactness)的原则,英文产品说明书普遍采用非谓语动词结构即分词短语、动词不定式和动名词短语替代定语从句和状语从句。对各种产品说明书中出现的不同的非谓语动词结构及其翻译实例进行了分析。  相似文献   

13.
浅析名词及其修饰语的关系   总被引:1,自引:0,他引:1  
简要地分析了限定性及非限定性定语的作用,着重论述了作定语的不定式现在分词、过去分词及介词短语与被修饰的名词之间的逻辑关系,还对非限定性定语从句的作用及理解提出了自己的见解。  相似文献   

14.
简要地分析了限定性及非限定性定语的作用,着重论述了作定语的不定式现在分词、过去分词及介词短语与被修饰的名词之间的逻辑关系,还对非限定性定语从句的作用及理解提出了自己的见解。  相似文献   

15.
领域本体在信息抽取系统有着重要作用。该文介绍了本体、领域本体的基本概念,并探讨了领域本体与信息抽取的关系。提出了信息抽取系统中领域本体的设计准则和实施步骤,实施步骤包括领域本体需求分析、收集本体信息、构建领域本体框架、形式化编码、确认和评价等。在信息抽取原型系统中实现了显示器领域本体,并将该领域本体应用到信息抽取中的命名实体识别、抽取模式获取和主题概念提取等任务中,应用结果表明该方法、步骤是可行的。  相似文献   

16.
农业古籍自动编纂是利用计算机自动从农业古籍中发现并摘录与某一主题相关的农业资料,并编纂成册。农业古籍自动编纂具有重要意义,与自动文摘有着紧密联系,自动编纂的流程和算法设计主要包括分割农业古籍的章节、提取子句关键词、计算紧凑度和深度值、以及按阈值确定分割点。实验表明该方法是可行的,当子句和文本块的大小分别取15和2时,提取论题句群的符合程度较高。  相似文献   

17.
《阅读与作文》2008,(6):37-38
在英语教学中,学生时常对及物动词后宾语的补足语感到困惑,其主要原因是在句子中能作宾补的成分较多,有名词、副词、介词短语、不定式(带“to”或不带“to”)、分词(现在分词或过去分词)等形式。其实稍加分析,不难看出能作宾补成分的主要有分词和不定式两种形式。  相似文献   

18.
一、引言 垂悬修饰语(Dangling Modifiers)即修饰语在句子中找不到逻辑上被修饰的对象,这是中国学生经常犯的一种语法错误。常见的垂悬修饰语有垂悬分词、垂悬动名词、垂悬不定式、垂悬介词和垂悬省略句,它们的产生构成了英语的垂悬现象。 二、五类垂悬修饰语 2.1 垂悬分词 垂悬分词(Dangling Participles)又分垂悬现在分词和垂悬过去分词。分词短语常可用作状语。现在分词短语作状语时,通常都表示主语正在进行的另一动作,来对谓语表示的主要动作加以修饰或作为陪衬(The participle must be relatedto the subject of the sentence,i.e.the performer ofthe action the participle expresses should be thesubject or the circumstances the participle describes should be the subject's)。请看下例: (1)They stood there for an hour watching thegame.他们在那儿站了一个钟头看比赛。  相似文献   

19.
进入知识社会,大量芜杂的信息使得读者陷入了尴尬的境地,笔者针对此种情况,从数学的角度来进行特定模型的语义抽取研究,通过相似值的计算、过滤及最大墒值的自动提取等环节来为用户自动抽取简洁的信息需求内容,并设计出一套科学合理的计算模式,以期对相关领域的理论研究及实践发展有所贡献.  相似文献   

20.
致作者          下载免费PDF全文
本学报为国内外公开发行的人文社会科学类综合性学术刊物,每年出版6期。 来稿务请用稿纸誊写清楚,或用A4打印纸打印,并附英文题目及以300字为限的中文、英文摘要,给出3-8个中文及英文关键词。稿件文辞力求精练,一般不超过8000字。请附上作者简介,内容如下:  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号