首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 863 毫秒
1.
为摆脱中文自动分词过程中对庞大词库和复杂分词处理程序的依赖,提出了中文关键词信息的提取方法.该方法采用基于2-grams的短语标引来进行中文关键词的抽取,首先采用2-grams方法提取出权重较大的2元关键词,再抽取能充分标引文章内容的短语关键词,以提高对文档内容的表达能力.  相似文献   

2.
为摆脱中文自动分词过程中对庞大 词库和复杂分词处理程序的依赖,提出了中文关键词信息的提取方法,该方法采用基于2-grams的短语标引来进行中文关键词的抽取。首先采用2-grams方法提取出权重较大的2元关键词,再抽取能充分标引文章内容的短语关键词,以提高对文档内容的表达能力。  相似文献   

3.
基于Lucene的中文文本分词   总被引:2,自引:0,他引:2  
中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一个十分优秀的基于Java语言的文本检索工具包,在国外已经得到广泛的应用.但是Lucene对中文分词功能的支持不太理想,给Lucene加入好的中文分词功能对Lucene在国内的发展和应用将会起到很大的推动作用.  相似文献   

4.
汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。  相似文献   

5.
实行中文分词连写确实具有必要性。但仅此是不够的,我们还应当注意是否具有可行性。笔者从三个方面就可行性问题进行了深入考察。考察结果表明,实行中文分词连写不仅具有必要性,而且具有可行性。  相似文献   

6.
针对监理工程中文本文档在管理过程中存在的一些困难,提出一种适用于监理工程的文本分类方法,旨在提高管理效率,简化工作方式。该方法在进行中文分词处理时,使用通用词典与手动构造的监理工程专业词典相结合的方式。对于特征提取,在使用TFIDF的基础上,结合一定的规则来调整特征权重,并采用朴素贝叶斯分类算法来构造分类器。实验结果表明:该方法在对监理通知单分类问题上能满足实质性的应用需求。  相似文献   

7.
从中文姓名识别技术是中文分词领域的重要分支的角度,分析了传统统计中文切词方法正确率低的缺失,表现为基于机器学习方法的中文姓名识别技术对词典规模和语料库容量依赖性大的缺陷,以至于不能够有效地发现未登录词,降低了中文姓名识别的正确率;以中文姓氏用字为线索,提出了一种改善的无监督的中文姓名识别方法,在统计法的基础上,利用关联规则算法挖掘出与姓氏相关的强规则进行姓名识别。实验结果表明:此方法对词典规模和语料库依赖性较小,能够自动消除歧义,有效地发现未登录词,提高了中文姓名识别的正确率。  相似文献   

8.
文章通过质疑和答疑表述了以下看法:(1)就日常交际来说,西文需要分词连写而中文则未必,因为后者可以借助汉字特征辨识词界;(2)现在越来越多的人赞成实行中文分词连写,主要因为这有助于中文信息处理;(3)实行中文分词连写有利有弊,最大弊端是它给书写增添了负担;而开发推广中文词式书写编辑软件,不失为化解矛盾的可行办法。  相似文献   

9.
结合数据挖掘、主题建模、网络分析等多源融合的大数据分析法,针对网络空间治理政策及部门协同进行研究,对政策提升与机制优化具有重要意义。基于深度挖掘的网络空间政策文本,采用概率主题模型(LDA)从文本中发现并提取低维主题集合,分析主题分布;结合社会网络分析(SNA),对出台政策涉及联合发文的部门开展合作网络分析;提取六项分类主题为指标,评估治理政策的布局特征;从部门合作网络整体结构和网络中心性两个维度,评估组织间协同合作效果,为政府政策优化和协同合作提供理论依据与决策建议。  相似文献   

10.
语料库语言学的视角对研究作家作品的语言特点和主题表达提供了可靠的量化依据。通过语料库语言学的研究方法,主要运用Wordsmith工具来提取爱伦坡的短篇小说《厄舍古屋的倒塌》文本的基本信息,并结合文本索引行观察文本主题词特征,进而探析爱伦坡小说词汇的哥特式特征。  相似文献   

11.
汉字的“字”与汉语的“词”单位不一致,给人脑和电脑的理解都带来困难。汉语另外有三种可能的文本:“汉字词式书写”文本、“纯拼音词式书写”文本、“拼音夹用汉字”文本。“拼音夹用汉字”文本最有可能成为走出汉语自动理解困境的最佳路径。  相似文献   

12.
"语文"一词反映先语后文的次序.中文应该反映汉语词的多音节特性.分词连写配合心理语言学的大脑同时处理7个信息单元的特性.现代语言普遍采用词串捆绑方法来处理较复杂的概念.意义完整的语文标签应采用连写式.中文全分写等于全连写,缺乏词的信息.语文现代化是国家全面现代化的必要而非充分条件.今天,面对洋语洋文的挑战,我们需要提出新的指导方针--"科哲为体,中西兼用".  相似文献   

13.
群文阅读是对传统语文阅读教学方式的有效补充和重要创新,它在发展学生的高阶思维能力和阅读能力等方面有着重要作用,其最终目的是在学生学会阅读的基础上,落实学科核心素养。本文在对群文阅读进行理论分析的基础上,对小学语文教学中开展群文阅读的教学策略进行浅析。  相似文献   

14.
电影角色是塑造意识形态、传播国家主流文化价值的重要工具。对1919—2020年中国角色在欧美电影中的形象变迁的分析发现,在各个历史阶段,中国角色的形象并不单一,但中国角色形象的变化具有时间上的连续性。欧美电影创作者对中国文化的态度从主观臆想转变为客观接纳,从对中国人或恐惧或蔑视的态度转变为局部的肯定。然而在目前欧美的主流电影中,中国人及中国文化总体上还是一种抽象符号,缺乏坚实的文化内涵。在方法论方面,利用自然语言处理技术对文本进行数据挖掘的研究方法既有客观、高效的优势,也有受制于原始文本材料质量的局限性。  相似文献   

15.
新闻标题与正文中的句子相比,一般都会显得更简短精练。新闻标题中最容易采用简约形式的成分依次是述语、状语、定语、主语、补语和宾语。其中,谓语部分采用简约形式的标题占大多数,其简约形式的类型主要有:采用词或短语的缩写形式、文言或方言替换、单音节形容词作谓语、指称性词语陈述化、词类转指、不及物动词直接带宾语、隐去介词、隐去趋向动词以及隐去宾语中心语等9种。标题成分采用简约形式会对汉语发展产生一定的影响,如推动汉语的"返祖"、促进新词的产生、使某些不及物动词可以直接带宾语等。  相似文献   

16.
计算语言学是从语言学中分离开来的学科交叉的门类。汉语自动分词是计算语言学中的一个热门研究方向,研究发现,汉语自动分词的语料库、最大匹配法、分词规范、歧义问题、未登录词等理论知识对英语教学有很好的启发作用。  相似文献   

17.
文本的意义阐释问题是文艺理论界研究的热点问题。“过度阐释”“反对阐释”与“强制阐释”构成了文本意义生成的三种形态。首先,阐释学的知识内涵可以划分为方法论和本体论双重层面,分别涉及符合论的真理观与存在论的真理观。其次,中国当代阐释学对文本意义的生成展开了积极反思和持续建构。张江教授提出的“强制阐释论”涵盖“本体阐释”“核心阐释”“阐释大循环”等一系列具有创新性的概念范畴,实现了对阐释学方法论和本体论的融合,推动了当代阐释理论的进一步发展。最后,中国学者对场外征用与文本意义生成、主观预设与文本意义生成、批评的公正性和批评的伦理性等问题进行了细致讨论,建构起具有中国特色的阐释学话语体系。中国当代强制阐释论是阐释学理论的重大突破,为文学研究与文论发展提供了丰富的理论资源。  相似文献   

18.
新版《汉语拼音正词法基本规则》(GB/T16159-2012)在格式、内容上做了一些有益的修改完善工作,值得肯定。但仍用以往语法理论以语法词、词汇词为分词标准制定"分词连写"规则,没有解决好汉语拼音正词法中的"词"的问题。本文提出把依据"连说就连写"的原则确定的"语音形式词"作为正词法中的"词"。  相似文献   

19.
文章以一个2.3亿字的历时语料库为平台,结合统计与词嵌入算法,定量考察近代汉语中13个动量词与动词的组合状况。以宏观视野,展现并解释近代汉语动量词的概貌与特征,服务于汉语史研究与量词教学。首先,综合统计与规则的方法,完成动量词自动识别、自动分词、动量词搭配的动词自动识别等预处理工作。其次,分时段测查各动量格式、各动量词的频率,发现动量词在文言、白话语体中的词频差异悬殊。最后,依照《同义词词林》的语义类体系,考察动量词所修饰的动词的优势和劣势语义类别,发现动词语义类与动词是否受动量词修饰之间,存在着一种非强制的、概率性的联系。  相似文献   

20.
民航法律英语不同于其他文体的语言,有着鲜明的特征。运用语料库对该文体的语言特征,包括字位特征、词汇特征和句法特征进行研究,能够帮助译者更好地分析语篇,避免理解语篇时发生歧义,从而更加严谨、准确并规范地进行民航法律文件的翻译。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号