首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
众包标注质量控制研究   总被引:1,自引:0,他引:1  
众包是近年来流行的一种分布式商业模式,采用众包方式获取标注是一种快速廉价获取海量数据标签的有效方式,由于众包平台中普遍存在不认真完成任务的作弊用户,众包标注质量难以保证.为有效提高众包标注准确性,通过学习标注者的可靠性,实现基于标注者的可靠性进行动态任务分配,采用贪婪的预测模型实现对多个标注者提交的标签进行聚集,获得高质量的众包标注结果.实验结果表明,该方法能获得比基准算法更高的标注准确性,有效实现众包标注质量控制.  相似文献   

2.
为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注文本先切分形成词串再进行标注,并改进了分词词典从而支持子串的标注,保证了较高的召回率.还就相关内容进行了研究并给出了具体实现.运行结果表明基于MMSeg分词的多部主题词表联合标注在标注速度、召回率和精确率方面均达到了实用要求.  相似文献   

3.
基金项目标注规范是科研诚信建设的重要组成部分,基金项目资助产生的研究成果在发表时,应按照相关规定进行规范标注,但基金项目标注失范行为却时有发生,基金项目的真实价值未能正确体现.对人文社科领域的基金项目标注行为进行分析,可为防止学术不端、规范基金标注行为、制定基金资助政策提供依据.在分析国家社科基金、国家自科基金等项目标注规定基础上,以2016—2020年间24万余篇标注国家社科基金项目的研究成果为样本,总结归纳出虚假基金、冒用基金、挂名基金、内容无关基金、过期基金、补充基金和多个基金等七种基金项目标注失范行为后,对基金项目标注行为进行分析研究.研究发现,有近50%的研究成果存在多个基金标注失范行为,研究成果质量越高,平均标注的基金项目数量越少;基金项目标注失范行为与学科、地区、成果类型存在相关关系,但不受项目类型的影响.  相似文献   

4.
基金项目标注规范是科研诚信建设的重要组成部分,基金项目资助产生的研究成果在发表时,应按照相关规定进行规范标注,但基金项目标注失范行为却时有发生,基金项目的真实价值未能正确体现.对人文社科领域的基金项目标注行为进行分析,可为防止学术不端、规范基金标注行为、制定基金资助政策提供依据.在分析国家社科基金、国家自科基金等项目标注规定基础上,以2016—2020年间24万余篇标注国家社科基金项目的研究成果为样本,总结归纳出虚假基金、冒用基金、挂名基金、内容无关基金、过期基金、补充基金和多个基金等七种基金项目标注失范行为后,对基金项目标注行为进行分析研究.研究发现,有近50%的研究成果存在多个基金标注失范行为,研究成果质量越高,平均标注的基金项目数量越少;基金项目标注失范行为与学科、地区、成果类型存在相关关系,但不受项目类型的影响.  相似文献   

5.
近年来语料库标注的标准化得到了前所未有的关注。该领域的研究成果使创建、表示和操作标注数据的标准方法更加清晰。面对新形势,ISO/TC37/SC4将实际应用标准与最佳实践相结合,提出了LAF(Linguistic Annotation Frame work)。LAF体现了语料库标注标准化的必然趋势,在创建和使用标注语言资源的过程中发挥着越来越重要的作用。  相似文献   

6.
文章采用统计方法考察了近十年在国外期刊上与言语行为自动标注相关的论文,进而呈现国外言语行为自动标注研究的进展。近十年言语行为自动标注以言语行为理论为基础,对文本、音频等言语行为进行标注,热点话题主要为情感识别、文本挖掘、人机对话、机器翻译等,研究体裁也多集中于医疗对话、商务会议、信函、网络语言等。文章对国内未来言语行为自动标注研究有一定的启示意义。   相似文献   

7.
文章在回顾传统英美语调标注体系和To BI及IVi E韵律标注系统的基础上,结合学习者英语语音特点,构建了河南口音英语学习者语音库(HELSCOM)的韵律标注系统。该系统包括语调层(intonation tier)、音高事件层(pitch events tier)、停顿指数层(break-index tier)、杂类层(miscellaneous tier)等四层,实现了传统英美语调标注体系与ToBI及IVi E韵律标注系统的完美融合。  相似文献   

8.
公文主题词的标注是否准确、规范将直接影响人们利用、检索和管理文件的效率.针对当前高校公文主题词标注工作中存在的问题,本文试图从其产生的渊薮入手,通过进一步的分析和探讨,提出了提高公文主题词标注质量的对策与措施.  相似文献   

9.
科技论著中引文的标注是著录参考文献的一项重要内容,其目的与作用是反映该论著的科学依据、起点和深度;尊重他人的劳动成果,保护知识产权,防止学术腐败;并起到索引的作用,有利于节省论著篇幅.标注要掌握好三个方面的原则,即权威性和时限性、公开性和自阅性、准确性.标注最常见的位置有两种.存在的问题有不标注和乱标注.  相似文献   

10.
本文在肯定港版语文字典对提高港人文化水平、对扩大中西文化交流乃至对香港文化的整体发展作出巨大贡献的前提下,实事求是地指出近年来香港使用较广的十多本语文字典在粤音关于韵母标注、声母标注和调类标注等方面的问题  相似文献   

11.
语义角色标注已成为中文信息处理研究的热点问题,并广泛应用在问答系统、信息抽取、机器翻译等领域。本文在多年来藏文分词标注研究和语料库建设的基础上,分析了传统藏文文法中的逻辑格以及接续特征的语义映射关系,参考FrameNet、PropBank和北大中文网库等资源库制定了藏文语义角色标注体系,提出了建立高质量的藏语句法树库TTB(Tibetan TreeBank)、语义角色标注库TPB(Tibetan PropBank)和藏语动词语义框架库TVN(Tibetan VerbNet)等知识库的方案;运用依存句法分析方法建立了句法分析模型;结合藏文句法结构特征和语言习惯,挖掘藏文句法结构属性,阐明了藏语语义角色标注的理论和原理。  相似文献   

12.
由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在.基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化.现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性.文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型.  相似文献   

13.
在完成自动分词和词性标注工作的基础上,进行分句层次和关系的自动划分和标注,以期建设一个面向中文信息处理的大规模复句"精加工"语料库.可以利用词性信息制定一系列规则去实现部分非分句的自动识别和标注,同时建设一个短语库,把短语语言片段收录其中.  相似文献   

14.
从网络技术的角度,阐述了与大学英语语料库标注相关的文本预处理、标注工具、标注格式、标注格式转换、标注准确率、标注校对等问题。  相似文献   

15.
机用义项库在词义标注中的作用及其完善   总被引:1,自引:0,他引:1  
计算机词义标注一般都沿用传统词典的义项,随着研究的深入,对传统词典义项的设立提出了新的要求.有学者提出了以句法功能为主要依据来辨析义项.我们的研究注重词义语义特征的提取,共建构了七个资源库,互相之间主要围绕着词义语义特征展开,义项库在计算机词义标注中居于关键位置.机用义项库与传统词典义项相比,在词义标注目的、对语料的覆盖力、义项间语义关系、义项的可识别性、计算机处理能力的适应性及不同属性的义项义频的差距等方面,都存在着相当大的差别.从而,可以对基于传统词典义项上形成的机用义库提出改造与完善的若干原则与方法.  相似文献   

16.
语料库中语料的标注   总被引:2,自引:0,他引:2  
语料标注是实现原始语料机读化的关键环节 ,也是语料库语言学领域的一个重要研究课题。本文结合国内外的有关研究成果以及国外的部分大型英语语料库的标注实践 ,介绍与讨论了语料标注的原则、模式以及类型 ,以供国内在建设英语语料库的过程中借鉴。  相似文献   

17.
语科库作为自然发生的语言资料的集合 ,它反映了某一种语言的用法特征及其多样性 ;它为词典编篡提供了翔实可靠的依据。利用英语语言学研究的成果 ,结合语料库中常见的词性标注方法 ,对运用于双语词典编纂的 CONU L EXID语料库系统中的语料词性标注问题进行了初步的探讨。  相似文献   

18.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果,对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

19.
用XML格式标注的电子文本具有清晰易读、传播方便、平台通用、检索迅速等优点。我们使用XML格式进行了一些古籍的信息标注工作,并研制了基于XML的软件Mark&Search,该软件能较好完成古籍信息的标注与检索。  相似文献   

20.
国外研究者以修辞结构理论为支撑对大批量的英语语篇结构进行标注,取得了可观的成绩,这为汉语语篇标注带来很多启示。鉴于英汉语篇之间的差异,提出以汉语的句群理论为支撑对汉语语篇结构进行标注。首先,汉语的句群理论与RST理论的根本假设、主要性质是一致的;其次,RST理论的分析基于从句和小句,这顺应了英语重形合的特征。然而,对于汉语重意合的特征RST理论很难发挥其应有的作用;最后,清华的多层级中文树库中已经涉及到篇章层面句群的识别,为以句群理论为支撑的汉语篇章结构标注奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号