首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在国家标准《信息处理用现代汉语分词规范》基础上,兼顾中古词汇的过渡性、佛教文献的特殊性、人工分词的操作性、分词软件识别的便利性等多方面因素,讨论了中古汉语语料库佛教文献的词语切分问题,建立了针对中古佛教文献的分词规范:以分词单位作为中古汉语语料库的基本单位;判定分词单位适当从严;依据意义标准、频率标准、语感标准界定词与非词;如何切分佛教文献中的外来词、同义复词、多音节词、专有名词,以及动补结构的词语、过渡性质的词语。  相似文献   

2.
计算语言学是从语言学中分离开来的学科交叉的门类。汉语自动分词是计算语言学中的一个热门研究方向,研究发现,汉语自动分词的语料库、最大匹配法、分词规范、歧义问题、未登录词等理论知识对英语教学有很好的启发作用。  相似文献   

3.
自上世纪80年代始至今,近30年来,中古汉语研究取得了长足进展,特别是随着电脑的普及,数字化技术的运用,中古汉语研究借助已有的一些电子语料库,更注重穷尽性搜索及计量特色,使研究更趋理性、更趋科学。但是,令人感到遗憾的是:古汉语电子语料库的建设远远地落后于研究的进展,目前为止,可以使用的断代电子语料库尚不多见,而专为中古汉语研究而建的"中古汉语研究型语料库"则更是罕见。为了使中古汉语研究不断走向纵深,建设此类语料库已成为学界迫切的任务。  相似文献   

4.
在全球华语大发展、大融合的背景下,基于多媒体语言资源建设的理念,建设全球华语语料库有其必要性;其和国内汉语语料库一起,构成全球汉语的语料库一体化系统。全球华语语料库在设计和构建上,需要从建设原则、语料来源与获取方法、语料库的构成比例、信息字段和存储格式等方面考量。在全球华语语料库的深加工方面,可以从选取核心库,分词标注词性、人工校对,基本字词信息统计,音视频资源标注处理,编误标注等方面拓展。基于网格平台,全球华语语料库可以包含如下功能系统:子语料库生成系统、网络版字词检索系统、网络版全文例句检索系统、音视频资源点播系统等。  相似文献   

5.
中古注释语料在汉语词汇研究尤其是复音词研究方面具有独特的文体价值.研究通过回顾20世纪80年代以来中古注释语料词汇研究现状,揭示其在汉语复音词研究方面的独特,并提出要加强中古注释语料复音词研究.  相似文献   

6.
语料问题与汉语史研究息息相关.洪诚先生在语料的选择、鉴别及利用等方面均有独到而精辟的论述,其语料观对汉语史尤其是中古汉语研究至今仍具理论指导意义.  相似文献   

7.
依据北京大学CCL语料库,对"其他"与"其它"的语料进行展示与分析,指出《现代汉语词典》和网上汉语词典关于"其他"与"其它"注释的错误所在,赞同《现代汉语规范词典》的处理意见。  相似文献   

8.
依据北京大学CCL语料库,对"其他"与"其它"的语料进行展示与分析,指出《现代汉语词典》和网上汉语词典关于"其他"与"其它"注释的错误所在,赞同《现代汉语规范词典》的处理意见。  相似文献   

9.
在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值."通用语料库"是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义.机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问题.源于真实语料的词表清楚反映出断代词汇由语言词和言语词两个层面构成,两个层面的词语之间有着互渗作用.源于真实语料的词表存在着书面语与口语的差异,不规范现象也较普遍存在,在词语的普遍性上与断代词汇有着相当的距离.  相似文献   

10.
汉语国际教育迅速发展,与之相应的研究却跟不上快速发展的步伐,其最主要的问题在于缺乏科学且可靠的汉语中介语语料库支持。国内中介语语料库存在的问题主要在于缺乏高质量且真实的口语语料资源和跨学科视角、语料数据来源存在局限性、缺少建设学习者的历史语料库、语料库数据尚不能充分共享等五个方面。中介语语料库建设具有复杂动态和非线性涌现的特征。基于大数据思维,"新一代汉语中介语语料库"的设计原则应增设词网技术、学习者特征、社会语言学特征三项;建设原则应遵循真实性、广泛性、历史性、跨学科、课内外、全媒体、无障碍共享等七项原则;实施方法应配置新一代互联网信息的管理系统和抽取系统、网络智能挖掘技术及网络代理。  相似文献   

11.
以八部当代小说、剧本,北京大学现代汉语语料库和对外汉语课堂表扬语为语料来源,先从句法结构、典型词汇、典型话语标记等方面对"表扬"言语模式进行分类描写,再从汉语国际教学的角度,归纳出"表扬"语六种常用的功能及相关句式,并重点分析汉语三种特殊表扬方式的跨文化语用问题,以期能对汉语国际教师得体有效地运用"表扬"语有所帮助。  相似文献   

12.
《道藏》收录道经一千四五百种,为中古近代汉语提供了丰富的语料,若能正确、充分利用,则有裨益于大型辞书的编纂和修订。《汉语大字典》利用了少量道经语料,但存在一些失误。利用道经语料,文章对有音无义、音义皆无、同形俗字、可作字际沟通而未作沟通的俗字进行了考证。  相似文献   

13.
对照中古汉语中的词尾“自”、“复”,利用电脑文献语料库,列举大量的例证,根据语言事实,详细揭示了中古汉语中的词尾“当”的形成、成熟和消亡的过程,判定了“当”的词尾性质,阐明了其在构词、表义和使用上的特点。  相似文献   

14.
《撰集百缘经》译于三国时期,保留了魏晋时期汉语复音化的痕迹。它的词汇系统继承先秦两汉而来,又涌现出一大批新词,有较高的语言学价值,是研究中古汉语的重要语料。本文对《撰集百缘经》中出现新词进行考释,以期能对中古汉语史研究及大型汉语辞书的编纂工作有些许帮助。  相似文献   

15.
文章在统计近百万字语料的基础上,从复音词、各类复音词、各类复合词和词类的发展趋势等4个方面具体描写了近代汉语构词法发展的状况,认为复音词发展趋势是近代汉语复音词的数量继续增长,复音词的使用频率和义项的丰富程度都比中古汉语有很大提高,构词方式已经完备。在复合词构词法中,近代汉语偏正式构词法最为能产。  相似文献   

16.
近年来,在自然语言处理领域,基于语料库方法重新复苏并引起了广泛关注。尽管这种方法在自然语言处理的许多领域中得到了成功的应用,如:词性标注和语音识别,但是用语料库方法在汉语切分阶段还没有获得理想的结果。而且用语料库方法获取的知识一般是用统计的数据给出的,使用这些统计数据来分析、理解自然语言很不直观。对于汉语切分,本文提出了基于规则的错误驱动学习,这种方法既可以利用大规模语料库,同时也能利用语言学家总结的语言学规律,并且使用学习后得到的规则重新调整切分语料能提高切分的正确率  相似文献   

17.
东汉汉译佛经是口语化程度较高的翻译作品,是研究中古汉语的重要语料。本文对东汉汉译佛经中大量使用的代词进行梳理,并对大型工具书《汉语大词典》在收录代词方面的疏收、书证晚收的情况进行补充,以期弥补在收词方面的不足。  相似文献   

18.
与上古汉语比较,中古汉语相对时点词有以下特点:由位移动词参与构成的相对时点词语明显增多;除继承上古"位移动词 时间成分"方式外,中古相对时点词语出现"副词 位移动词"和"位移动词 位移动词"的结构方式。中古汉语位移动词构成的相对时点词用法更加统一;一些新兴相对时点词经历了"佛典→与佛典有关的文献→一般文献"的发展过程。汉语时间表达的认知隐喻方式在上古还不够成熟,中古才趋于成熟。中古时期,人们更加有意识地参照汉语对时间表达的认知方式,运用位移动词来创造新的相对时间词。  相似文献   

19.
中古汉语词汇复音化在词汇史上具有重要地位和学术价值.将中古汉语词汇复音化的研究成果细分为三个层面进行归纳和整理.回顾表明,在近数十年的研究工作中,其研究对象的粒度从大的历史分期逐步精细化为专书,进而针对不同性质的语料进行考察,研究方法从定性概括发展为定量分析,研究范围从个体、局部和零散的词语考释到整体性的复音词构成分析和复音化的规律挖掘,在整体上呈现出由个别到一般、由表层到深入、由模糊到清晰的认知过程.随后,在已有研究成果回顾及总结的基础上,探讨了未来中古汉语词汇复音化的研究方向.  相似文献   

20.
将纸质印刷本的古代文献转换成便于电脑系统识别和应用的电子文本,是汉语史语料库的基础工作。根据中古汉语语料库建设的实践,这一转换过程中主要存在正文注释材料的处理、标记性附属材料的存删、异形字的选用、句子的分合、标点符号的处理等问题。既涉及到古代文献的撰写体例、语料性质、时代特性,也涉及到程序软件的自动识别过程。实践中需要兼顾语料库建设的可操作性、用户检索的便利性,在不违背文献学、语言学学理的前提下,对古代文献的文本进行一些必要的技术性处理。主要方法包括:保留同时代的注释材料,并添加相应的标记符号;剔除后人添加的或者时代不明的注释材料,以案语的形式保存原书文字;保留现有的佚文材料,添加相应的标记;删除正文中不具备汉语史语料价值的标记性文字;按照不同的优先层级选用字形,以《通用规范汉字表》及其附件《规范字与繁体字、异体字对照表》作为异体字、新旧字的标准字形。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号