首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
唐晓彬等 《统计研究》2021,38(8):146-160
本文创新地将半监督交互式关键词提取算法词频-逆向文件频率( Term Frequency- Inverse Document Frequency, TF-IDF )与基于 Transformer 的 双 向 编 码 表 征 ( Bidirectional Encoder Representation from Transformers,BERT)模型相结合,设计出一种扩展CPI预测种子关键词的文本挖掘技术。采用交互式TF-IDF算法,对原始CPI预测种子关键词汇广度上进行扩展,在此基础上通过BERT“两段式”检索过滤模型深入挖掘文本信息并匹配关键词,实现CPI预测关键词深度上的扩展,从而构建了CPI预测的关键词库。在此基础上,本文进一步对文本挖掘技术特征扩展前后的关键词建立预测模型进行对比分析。研究表明,相比于传统的关键词提取算法,交互式TF-IDF算法不仅无需借助语料库,而且还允许种子词的输入。同时,BERT模型通过迁移学习的方式对基础模型进行微调,学习特定领域知识,在CPI预测问题中很好地实现了语言表征、语义拓展与人机交互。相对于传统文本挖掘技术,本文设计的文本挖掘技术具有较强的泛化表征能力,在84个CPI预测关键种子词的基础上,扩充后的关键词对CPI具有更高的预测准确度和更充分的解释性。本文针对CP 预测问题设计的文本挖掘技术,也为建立其他宏观经济指标关键词词库提供新的研究思路与参考价值。  相似文献   

2.
利用半结构化文本数据分析方法,从国外高校387个大数据硕士相关项目及国内22个相关硕士项目人才培养方案中提取出大数据高端人才培养的七大方向,并对不同方向的培养目标、课程、学分、学制等设置及其对应的人才市场需求匹配情况等相关内容进行剖析,为改革中国大数据高端人才的供给提出一定建议。  相似文献   

3.
4.
数据采掘与统计   总被引:3,自引:0,他引:3  
数据采掘(Data Mining)是一项新兴的技术,它与统计、与信息技术,它与我们未来的统计教育有什么关系呢?我试图以自己的理解来回答这些问题,同时也对DM技术作一概要性的介绍。我们都说现在是信息时代,信息对于决策是起着重要作用的,实际上我们每个人每天都自觉或不自觉地在作出决策,依据是我们个人所有的信息(常识、经验、知识、专业等等)。我们得到的信息有两大类: 一类是确定性的,例如日蚀、月蚀的时间,可观察的地点等等; 一类是不确定的,例如明天这里降水的概率、明天某一股票涨、跌的可能性等等。随着社会的发展,新事物层…  相似文献   

5.
6.
7.
聚焦:Data Mining--观念、方法及技术、应用实例(下篇)   总被引:1,自引:0,他引:1  
6.连结分析 连结分析是以数学中之图形理论为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如,电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的行销业者亦利用连结分析做有利于企业的研究。 7.线上分析处理 所谓线上分析处理是指由数据库所连结出来的线上查询分析程序。严格说起来,线上分析处理并不算特别的一个资料挖掘技术,但是透过线上分析处理工具,使用者能更…  相似文献   

8.
大量的在线评论文本数据,对汽车制造业的产品创新、精准营销具有重要的实用价值.传统的文本挖掘多关注情感极性强度而忽视了情感营销效应,挖掘结果与企业需求差异较大.文章利用大连理工、中国知网等情感词典和丰富的汽车语料库,采取了基于CRF机器学习的情感词自动获取方法,构建了情感营销效应词库,并运用MATLAB对该词库情感营销效应进行了全面的统计分析,分类优化情感营销效应值,最后采用中科院ICTCLAS中文分词技术进行测试,结果表明,考虑情感营销效应的文本挖掘召回率达到80%以上,能较好地满足汽车厂商的应用需求.  相似文献   

9.
数据挖掘运用的理论与技术   总被引:4,自引:0,他引:4       下载免费PDF全文
一、引言数据挖掘是指一个完整的过程 ,该过程从大型数据库中挖掘先前未知的 ,有效的 ,可实用的信息 ,并使用这些信息做出决策或丰富知识。数据挖掘环境可示意如下图 1。数据挖掘与传统的数据分析 (如查询、报表、联机应用分析 )的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知 ,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的 ,既数据挖掘是要发现那些不能靠直觉发现的信息或知识 ,甚至是违背直觉的信息或知识 ,挖掘出的信息越是出乎意料 ,就可能越有价值。在商…  相似文献   

10.
数据挖掘中事务性数据库的压缩及其应用   总被引:4,自引:0,他引:4       下载免费PDF全文
一、引言 数据挖掘的首要工作是数据的准备,数据的准备包括:数据选取(Data selection)、数据预处理(Data perprocessing)和数据变换(Data transfromation).目前,我们已经充分地意识到,在信息系统中的信息积累越来越大,这样给数据的准备带来困难,给数据挖掘阶段的开采工作带来了不便.为此解决信息系统中信息量膨胀的问题,就显得尤为重要了.  相似文献   

11.
薛薇 《统计研究》2002,19(4):52-53
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数…  相似文献   

12.
林教授先后多资到国内讲学,受到好评。《中国统计》将从本期起,为林教授开设专栏,以期与读者共享他的睿智的文采。  相似文献   

13.
文章在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领域对关联规则的理解及相应的研究方法,最后提出了关联规则的前沿研究问题和未来的发展趋势。  相似文献   

14.
文章从算法角度对关联规则的提出、演变过程和前沿研究进行了较为详细的考察,并在此基础上提出了关联规则未来研究的领域和发展趋势。文章先详细地考察了关联规则的三类典型算法,然后总结了基于复杂数据属性的关联规则算法扩展。为考察其他方面的算法扩展和介绍其他学科领域对关联规则的研究奠定了基础。  相似文献   

15.
数据挖掘中的关联规则   总被引:7,自引:0,他引:7       下载免费PDF全文
 数据挖掘是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业;历史资料中,找出隐藏的规律并建立准确的模型,用以预测未来。其中关联规则的挖掘是数据挖掘中的一个重要问题。  相似文献   

16.
Decision theory is applied to the problem of identifying a small fraction of observations that contaminate a random sample from a specified distribution. The uncertainty about the parameters that characterise the contamination is addressed by sensitivity analysis. The analyst's (or the client's) perspective and priorities are incorporated in the analysis by ranges of plausible loss functions. An application to fraud detection is presented.  相似文献   

17.
数据挖掘的隐私问题   总被引:9,自引:0,他引:9  
信息技术的发展使人们能够收集和处理大量的个人数据,如犯罪记录、购物习惯、信用和医疗历史以及驾驶记录。这些信息无疑在许多领域,如医疗研究、法律实施和国家安全方面等非常有用。但是,个人隐私问题正在日益被关注,隐私普遍问题被认为是个人关于自己信息的一种控制。数据挖掘技术的出现重新引发了以下的隐私问题:个人信息的二次使用;处理错误的信息;对个人信息的深入访问。凡此种是表明了现存的法律隐私和政策远远落后于技术的发展,并不再能提供足够的保护。因此,文章从数据挖掘的角度对隐私问题提出了新的挑战。  相似文献   

18.
数据挖掘中多分类有序变量间距差异分析及应用   总被引:1,自引:0,他引:1  
文章在明确累积logistic回归模型的基础上,针对多分类有序变量存在间距差异的问题,提出了统计检验方法并引入工具虚拟变量对logistic模型加以改进,通过其在实际中的应用,取得了良好的效果.  相似文献   

19.
文章试图将统计思想与(Rough)粗糙集理论相结合,针对事务性数据库属性项压缩问题提出了一些行之有效的方法,即基于重要性的属性压缩、基于相依性的属性压缩、属性项的广义线形分析及压缩、基于多重相关性的属性项压缩,以此达到数据库压缩之目的。  相似文献   

20.
Although a previous study found that neural network forecasts were more accurate than time series models for predicting Latin American stock indexes, the forecasting accuracy of neural network for predicting gold futures prices has never been discussed. Therefore, the first objective of this study is to compare the forecasting accuracy of a neural network model with that of ARIMA models. Furthermore, the fluctuations in gold futures are not only influenced by the quantitative variables, but also by many nonquantifiable factors, such as wars, international relations, and terrorist attacks. The second objective of this study is therefore to propose the integration of text mining and an artificial neural network to forecast gold futures prices. The historical gold futures prices from 1999 to 2008 were used as training data and testing data, and the prices of 2009 were used to examine the effectiveness of the proposed model. The results of empirical analysis showed that an artificial neural network forecasted gold futures prices better than ARIMA models did. In addition, text mining provided a reasonable explanation of the trend in gold futures prices.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号