首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 24 毫秒
1.
计算语言学是从语言学中分离开来的学科交叉的门类。汉语自动分词是计算语言学中的一个热门研究方向,研究发现,汉语自动分词的语料库、最大匹配法、分词规范、歧义问题、未登录词等理论知识对英语教学有很好的启发作用。  相似文献   

2.
人脑输入汉语文本识别分词时的假象分析   总被引:1,自引:0,他引:1  
为了使中文信息处理中关于分词问题的研究从人脑的分词机制中得到参照,我们探索了人脑在给汉语书面语分词时识别词的交叉和包孕假象的过程,包括以下4个问题:1.人脑在输入汉语文本时可能遇到的词的交叉和包孕假象及这些假象形成的原因;2.人脑识别词的假象的范围和途径;3.人脑识别词的假象所需要的知识和能力;4.人脑的言语场。  相似文献   

3.
信息处理用藏文自动分词研究   总被引:3,自引:0,他引:3  
藏文自动分词研究是藏文信息处理领域的一项基础性工程,在研究藏语形式逻辑格、语义逻辑格、音势论等语法理论的基础上,借鉴汉语的分词理论和方法,充分利用藏语上下文语境,在不同藏语句子层面采用不同的处理方法。格切分用于句子结构层面,边界符判定用于短语切分,模式匹配用于词块切分,由此,提出了切分与格框架、标注一体化的藏语三级切分体系。  相似文献   

4.
从两个国家标准看汉语的词   总被引:1,自引:0,他引:1  
随着《汉语拼音方案》应用范围的日益扩大,理论语言学,中文信息处理等领域迫切要求目前的汉语分词规范基本达成一致,应该重新整合目前关于词的种种概念,普及正词法思想,完善、修订《汉语拼音正词法基本规则》以及《信息处理用现代汉语分词规范》,为汉语分词的进一步研究提供语言学上的理论统一基础,最终使汉语信息处理以及资源开发得到更有效的标准。  相似文献   

5.
增加汉字书写系统的语法信息   总被引:7,自引:0,他引:7  
面临英特网和信息时代的挑战,汉语的书写格式需要进行某些改进,以增强其使用效率和在国际市场上的竞争力.其中重要的一项内容是采用分词连写的格式.分词连写实际上是标点符号功能的深化和延伸,它可以增加书面汉语的语法信息.如同标点符号极大地提高了中国人的阅读效率一样,分词连写在提高阅读效率方面具有极大的潜力.由于现行汉语书面格式严重缺乏语法信息,反映语法信息的分词连写能获得极大的边际效应.根据汉语的特点,汉语的分词连写可以创造性地采取多种形式.  相似文献   

6.
根据中古汉语的基本特点,结合现有语料库的建设经验,阐述中古汉语语料库选取语料的若干原则:语料样本的代表性、文本类型的平衡性、语料之间的关联性与区别度、入库文献的特色性;讨论建立中古汉语语料库分词规范、分词词表的可行性,初步构建"信息处理用中古汉语分词规范"的整体框架。  相似文献   

7.
在国家标准《信息处理用现代汉语分词规范》基础上,兼顾中古词汇的过渡性、佛教文献的特殊性、人工分词的操作性、分词软件识别的便利性等多方面因素,讨论了中古汉语语料库佛教文献的词语切分问题,建立了针对中古佛教文献的分词规范:以分词单位作为中古汉语语料库的基本单位;判定分词单位适当从严;依据意义标准、频率标准、语感标准界定词与非词;如何切分佛教文献中的外来词、同义复词、多音节词、专有名词,以及动补结构的词语、过渡性质的词语。  相似文献   

8.
汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。  相似文献   

9.
副动词是俄语动词的一种特殊形式。它相当于汉语里的连动结构、介词短语"在……时候"、具有原因、目的、条件、让步意义的并列复句和表示行为方式的次动词谓语。英语通常译作分词或分词短语。  相似文献   

10.
文章以一个2.3亿字的历时语料库为平台,结合统计与词嵌入算法,定量考察近代汉语中13个动量词与动词的组合状况。以宏观视野,展现并解释近代汉语动量词的概貌与特征,服务于汉语史研究与量词教学。首先,综合统计与规则的方法,完成动量词自动识别、自动分词、动量词搭配的动词自动识别等预处理工作。其次,分时段测查各动量格式、各动量词的频率,发现动量词在文言、白话语体中的词频差异悬殊。最后,依照《同义词词林》的语义类体系,考察动量词所修饰的动词的优势和劣势语义类别,发现动词语义类与动词是否受动量词修饰之间,存在着一种非强制的、概率性的联系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号