首页 | 本学科首页   官方微博 | 高级检索  
     

汉语方言自动聚类与分区及相关计算方法
引用本文:江荻. 汉语方言自动聚类与分区及相关计算方法[J]. 暨南学报(哲学社会科学版), 2022, 44(3): 10-23
作者姓名:江荻
作者单位:中国社会科学院民族学与人类学研究所,江苏师范大学语言科学与艺术学院
基金项目:国家社会科学基金重大项目“中国民族语言大规模语法标注文本在线检索系统研制与建设研究”(21&ZD304);
摘    要:本文回顾了学界对汉语方言之间相互关系的三种计量方法:特征统计、词源统计和词汇相似度计量,指出这三种计量方法采用的是非整体的、语音和词汇上受限的考察方法。文章阐述了一种更适用的计算模型,即Levenshtein Distance算法(莱文斯坦距离,或称编辑距离),该方法对语言或方言之间线性字符串的语音相似性和词汇对应性具有协调功能,并蕴含特征比对和词源概率效用。本文自动分区实验汇集了南方吴、闽、粤、湘、客、赣、徽、淮8个分区的78个方言,官话方言有东北、北京、冀鲁、胶辽、中原、兰银、西南108个方言,共计186个汉语方言点。每个方言收集了斯瓦迪士100个基本词,并对方言之间展开相似性计算。计算结果与传统分区基本一致,但更为精准。

关 键 词:汉语方言  聚类算法  莱文斯坦距离  自动分区

Automatic Clustering and Division of Chinese Dialects and Related Computational Methods
JIANG Di. Automatic Clustering and Division of Chinese Dialects and Related Computational Methods[J]. Journal of Jinan University, 2022, 44(3): 10-23
Authors:JIANG Di
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号