首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
聚焦:Data Mining--观念、方法及技术、应用实例(下篇)   总被引:1,自引:0,他引:1  
6.连结分析 连结分析是以数学中之图形理论为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如,电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的行销业者亦利用连结分析做有利于企业的研究。 7.线上分析处理 所谓线上分析处理是指由数据库所连结出来的线上查询分析程序。严格说起来,线上分析处理并不算特别的一个资料挖掘技术,但是透过线上分析处理工具,使用者能更…  相似文献   

2.
统计数据全程质量管理初探(上篇)   总被引:2,自引:0,他引:2  
统计数据全程质量管理是提高数据质量的有效举措,其做法就是在统计工作的各个阶段,对数据质量进行层层把关,确保统计数据的准确性和真实性.  相似文献   

3.
媒体经常披露各式各样的研究结果,通常还加上引人注目的标题,例如:咖啡喝多了对心脏不好酒喝多想护肝 来杯茶、咖啡  相似文献   

4.
八、数字使用方法(下)□陈郁上篇我们从数字内容上谈了数字的使用方法。为了增强数字的表现力、感染力和可读性,使其生动、鲜明、易于读者理解和记忆,做数字文章,还需从表述方法上讲究使用数字的技巧。总的来说,使用数字表述方法常有“六变”、“三用”。1.变小为...  相似文献   

5.
看不见的城墙(上篇)--城市化进程中的行政区划问题   总被引:6,自引:0,他引:6  
城市是社会经济活动空间聚集的结果,这既包括人口的聚集,也包括产业的聚集。然而,我们发现,中国现行的行政区划以及由此而形成的行政区经济,对城市化所要求的空间聚集是一个制约。 这些制约的表现形式,原因以及化解制约的途径,就是本文试图回答的三个问题。行政区划和行政区经济 我国宪法第30条的规定,中国分为省、自治区、直辖市;省、自治区分为自治州、自治县、市、县;县、市、自治县分为乡、民族乡、镇;直辖市和较大的市分为区、县;自治州分为县、自治县、市。 这一规定所表述的中国的行政区划有这样的几个特点: …  相似文献   

6.
在统计工作中,预测方法的应用越来越普遍.预测方法应用的好坏,将直接影响到预测结果的精度.预测方法的选用,一定要结合预测对象的特性.好的预测方法能带来令人满意的预测结果,选用不太合适的方法将给人带来沮丧的结果.本文结合作者在工作中的实践,向大家介绍一些简单方便的预测方法.这些方法中的绝大多数计算可在Excel中完成.  相似文献   

7.
面对数据进行分析是经济预测的一个现代特征,当然,也是信息时代发展影响经济预测的一个重要结果。在预测工作中,海量的数据以及信息时代的‘短、频、快”使得许多信息数据的可靠性和正确性需要验证,这是预测结果正确的基础。因此,进行经济预测前必须进行数据的背景分析。为此目的,文章浅谈了背景分析的必要性及方法,并用实证进行阐释。  相似文献   

8.
数据挖掘的方法、流程及应用   总被引:6,自引:0,他引:6  
数据挖掘是一种新兴的信息处理技术,其主要特点是对数据仓库中的大量业务数据进行抽取、转换、分析和建模工作以获取辅助决策的关键信息。目前数据挖掘在众多领域都得到应用,给各行业带来了实际收益。比如在保险业,通过数据挖掘可以建诈欺诈侦测模型,降低企业成本,在金融业可以协助企业建立交易规则,增加企业把握市场的能力等。为满足读者要求,使实务工作者掌握这一新兴数据分析技术,本刊将与中国人民大学数据挖掘中心合作,连续刊登相关文章对数据挖掘进行介绍,欢迎有共同志向的读者投稿。  相似文献   

9.
工业生产指数计算原理及方法(一)宫彤一、工业生产指数计算原理工业生产指数是反映工业发展速度的指标,工业生产指数法是依据各种产品发展速度,然后加权计算出综合发展速度的一种方法,它反映的是产品物量的综合变动程度。用公式表示为:数,PoQo为基期权数。从公...  相似文献   

10.
工业生产指数计算原理及方法(二)宫彤2.权数的计算(1)权数的作用和分类。权数是对产品个体指数在工业生产指数形成过程中界定其重要性的指标。在工业这一总体中,所占比重大的产品或行业的权数较大,在计算工业生产指数时影响也较大,反之,则影响较小。由此可见,...  相似文献   

11.
数据挖掘中事务性数据库的压缩及其应用   总被引:4,自引:0,他引:4       下载免费PDF全文
一、引言 数据挖掘的首要工作是数据的准备,数据的准备包括:数据选取(Data selection)、数据预处理(Data perprocessing)和数据变换(Data transfromation).目前,我们已经充分地意识到,在信息系统中的信息积累越来越大,这样给数据的准备带来困难,给数据挖掘阶段的开采工作带来了不便.为此解决信息系统中信息量膨胀的问题,就显得尤为重要了.  相似文献   

12.
针对GM(1,1)幂模型灰微分方程与白化方程无法匹配的缺陷,以灰微分方程的重构为基础,建立无偏GM(1,1)幂模型。该方法使得差分方程的参数与其在微分方程中对应的参数具有更好的一致性。将无偏GM(1,1)幂模型应用到旅游客源预测中,实例应用结果显示无偏GM(1,1)幂模型预测精度高于GM(1,1)模型。  相似文献   

13.
苏宇楠  虞克明 《统计研究》2019,36(6):94-106
LMS模型是分析生长发育最常用的方法之一。本文详细阐述了LMS模型的构造原理;基于流量数据提出了费希尔信息矩阵与惩罚贝叶斯后验对数似然算法两种模型算法;利用中国健康营养调查(CHNS)1989-2011年中9年的流量数据,以所提出的LMS曲线算法为基础,通过计算BMI(Body Mass Index)绘制生长发育曲线研究我国青少年儿童生长发育情况和中年人健康问题。研究结果表明:1989-2011年间,我国0~18岁年龄段青少年儿童BMI中位数提高5%左右,生长发育高峰期有提前趋势;中年人群BMI中位数提高了10%左右,2000年后55周岁以上中年人体质差异有增大趋势。  相似文献   

14.
唐晓彬等 《统计研究》2021,38(8):146-160
本文创新地将半监督交互式关键词提取算法词频-逆向文件频率( Term Frequency- Inverse Document Frequency, TF-IDF )与基于 Transformer 的 双 向 编 码 表 征 ( Bidirectional Encoder Representation from Transformers,BERT)模型相结合,设计出一种扩展CPI预测种子关键词的文本挖掘技术。采用交互式TF-IDF算法,对原始CPI预测种子关键词汇广度上进行扩展,在此基础上通过BERT“两段式”检索过滤模型深入挖掘文本信息并匹配关键词,实现CPI预测关键词深度上的扩展,从而构建了CPI预测的关键词库。在此基础上,本文进一步对文本挖掘技术特征扩展前后的关键词建立预测模型进行对比分析。研究表明,相比于传统的关键词提取算法,交互式TF-IDF算法不仅无需借助语料库,而且还允许种子词的输入。同时,BERT模型通过迁移学习的方式对基础模型进行微调,学习特定领域知识,在CPI预测问题中很好地实现了语言表征、语义拓展与人机交互。相对于传统文本挖掘技术,本文设计的文本挖掘技术具有较强的泛化表征能力,在84个CPI预测关键种子词的基础上,扩充后的关键词对CPI具有更高的预测准确度和更充分的解释性。本文针对CP 预测问题设计的文本挖掘技术,也为建立其他宏观经济指标关键词词库提供新的研究思路与参考价值。  相似文献   

15.
戴平生 《统计研究》2018,35(9):103-114
普通最小二乘法是进行回归分析最常用的基本方法,但该方法要求满足若干经典假设,对于小样本或在与收入相关回归分析的参数估计中易受奇异值、高收入群体的影响。本文试图利用基尼加权回归弥补以上不足。基尼加权回归可分为参数方法与非参数方法两类,参数方法基于样本残差的基尼平均差最小原则对参数进行估计;非参数方法则是直接由两点间的斜率加权得到。基尼加权回归分析可以进行参数假设检验并定义拟合优度,其中的假设检验在实际应用中采用Jackknife重抽样方法估计方差。文中提出的样本拓展基尼平均差算法,弥补了现有算法对样本数据只能提供近似计算的不足,极大简化相应的计算公式。利用我国2015年省域截面数据、1994至2015年总量时间序列数据分别讨论入境旅游收入对收入基尼系数的影响,发现使用基尼加权回归的结果不仅符合理论预期,而且可以通过不平等厌恶参数的变化反映入境旅游收入对不同群体收入公平性的影响。  相似文献   

16.
世纪之交,以美国为代表的国民经济和社会信息化正成为世界发展的时代特征,二十一世纪是信息经济、知识经济的世纪。尽管我国信息化发展速度较快,但与发达国家相比差距较大。我国工业化进程还尚未完成,面临着国民经济和社会信息化与工业化的双重任务。因此,党的十五届五中全会决议中,明确将国民经济和社会信息化列为“十五”期间的十六项重要任务之一。作为国民经济和社会信息化的重要内容和表现形式,电子商务已经渗透到传统交易的各个领域,并创造出一系列崭新的概念和需求,正日益受到世界各国政府和企业的重视。如何将中央的政策和发展目标落到实处,为我国政府制定宏观发展战略提供量化的参考依据,尚需尽快努力提出相应的理论和方法。为此,《电子商务统计及其应用研究》课题组对世界主要国家电子商务统计及其应用进行了初步研究。本刊将陆续刊出,以餍读者。  相似文献   

17.
数据挖掘中多分类有序变量间距差异分析及应用   总被引:1,自引:0,他引:1  
文章在明确累积logistic回归模型的基础上,针对多分类有序变量存在间距差异的问题,提出了统计检验方法并引入工具虚拟变量对logistic模型加以改进,通过其在实际中的应用,取得了良好的效果.  相似文献   

18.
马少沛等 《统计研究》2021,38(2):114-134
在大数据时代,金融学、基因组学和图像处理等领域产生了大量的张量数据。Zhong等(2015)提出了张量充分降维方法,并给出了处理二阶张量的序列迭代算法。鉴于高阶张量在实际生活中的广泛应用,本文将Zhong等(2015)的算法推广到高阶,以三阶张量为例,提出了两种不同的算法:结构转换算法和结构保持算法。两种算法都能够在不同程度上保持张量原有结构信息,同时有效降低变量维度和计算复杂度,避免协方差矩阵奇异的问题。将两种算法应用于人像彩图的分类识别,以二维和三维点图等形式直观展现了算法分类结果。将本文的结构保持算法与K-means聚类方法、t-SNE非线性降维方法、多维主成分分析、多维判别分析和张量切片逆回归共五种方法进行对比,结果表明本文所提方法在分类精度方面有明显优势,因此在图像识别及相关应用领域具有广阔的发展前景。  相似文献   

19.
数据挖掘中关联规则的提升及其应用   总被引:3,自引:0,他引:3       下载免费PDF全文
一、关联规则的统计意义 关联规则挖掘的研究是近几年研究较多的数据挖掘方法,在数据挖掘中的各种方法中应用的也最为广泛.关联规则的概念首先是由Agrawal,R.,Imieliski,T.and Swa-mi,A.(1993)提出,关联规则挖掘的主要对象是事务数据库.  相似文献   

20.
数据仓库技术在统计中的应用   总被引:1,自引:0,他引:1  
近年来,由于计算机数据处理技术在统计行业中的广泛应用,因而产生了大量分散在各个行业中的数据。面对大量繁杂而分散的数据资源,如何安全有效地管理和重组数据,提炼出统计综合数据信息,以供政府部门和社会各界利用,成为目前各行业统计所面临的一个比较难于解决而又急于解决的问题。数据仓库(Data Warehouse)技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。统计数据现状分析1.数据格式多种多样,一致性较差,存在数据冗余。主要体现在:各个统计部门使用的数据格式均不相同,且各个系统相对独立。在系统单独作用的…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号