首页 | 本学科首页   官方微博 | 高级检索  
     检索      

对汉语史语料库文本处理问题的若干思考
作者单位:;1.南京师范大学文学院
摘    要:将纸质印刷本的古代文献转换成便于电脑系统识别和应用的电子文本,是汉语史语料库的基础工作。根据中古汉语语料库建设的实践,这一转换过程中主要存在正文注释材料的处理、标记性附属材料的存删、异形字的选用、句子的分合、标点符号的处理等问题。既涉及到古代文献的撰写体例、语料性质、时代特性,也涉及到程序软件的自动识别过程。实践中需要兼顾语料库建设的可操作性、用户检索的便利性,在不违背文献学、语言学学理的前提下,对古代文献的文本进行一些必要的技术性处理。主要方法包括:保留同时代的注释材料,并添加相应的标记符号;剔除后人添加的或者时代不明的注释材料,以案语的形式保存原书文字;保留现有的佚文材料,添加相应的标记;删除正文中不具备汉语史语料价值的标记性文字;按照不同的优先层级选用字形,以《通用规范汉字表》及其附件《规范字与繁体字、异体字对照表》作为异体字、新旧字的标准字形。

关 键 词:语料库  文本  注释材料  字形

On the Text Processing of Chinese Language History Corpus
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号