首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在统计工作中,常常有大量的调查资料需要输入计算机进行分析处理,但在录入过程中,经常会误录一些数字。如何才能在录入数据时减少误录的发生是一个亟待解决的问题。尽管目前有很多软件可以用于建立数据集,但它们各有利弊,很难用一个软件就能建立一个高质量的数据集。基于这一问题,本文将介绍一种联合运用Visual Foxpro6.0与SAS软件建立高质量数据集的方法。在数据输入过程中,它可以减少错误的发生,提高数据的真实可靠性。  相似文献   

2.
在实际应用中,一个数据库系统的数据基本模式(物理模式,概念模式,用户模式)往往是相对不变的,而数据统计模式却可能是经常变化的,这是因为面对变化中的市场,变化中的管理方式和变化中的组织结构,企业决策人员可能经常需要新的某种统计结果,要求应用系统能够快速提供出来.对于已经投入运行的应用系统来说,这往往就意味着要开发新的统计功能.如果有一个能够快速反应的工具,无疑具有重要意义.但是,有关的文献中更多地关注数据的基本模型设计,缺少对统计数据模型设计的论述.这要解决好两个问题:如何定义统计模式和如何生成统计.对第一个问题我们设计了统计数据定义语言S-DDL,对第二个问题通过生成程序代码方式解决.本文介绍了我们对统计数据模式化的研究和统计数据定义语言S-DDL.  相似文献   

3.
Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。  相似文献   

4.
实际冲击与中国产出持久性影响的实证分析   总被引:8,自引:1,他引:7       下载免费PDF全文
一、引言 实际经济周期模型与传统凯恩斯模型的一个重要区别是产出波动中是否存在较大的持久性分量,在经济波动的研究中为对实际经济波动做出更为合理的解释,引发了大量有关产出变动持久性的研究,例如Campbell and Mankiw(1987,1989)、Cochrane(1988)、Cogley(1990)等,坎贝尔和曼昆(Campbell and Mankiw,1987)率先提出衡量冲击持久性的方法,并应用美国的时序数据进行了研究,研究表明实际冲击不但对于美国的产出具有持久性的影响,而且冲击的影响也被放大.  相似文献   

5.
分段建模技术在社会科学研究中还很少见,它在自然科学中的研究,大多数仅局限于讨论其建模后的连续性,基本上是以样条函数为工具.利用SPSS13.0就改革开放30年来的中国国际入境旅游外汇收入实际数据进行全面的技术研究,并通过与单一的曲线拟合效果进行对照,取得了满意的统计模型和预测效果.其目的在于这一技术的进一步推广,避免中国目前众多的规划项目中粗糙模型的不准确预测和差异较大的规划决策后果.  相似文献   

6.
通常情况下,对用电量进行预测的问题可以采用广义可加模型(GAM),但当数据集很大时,在计算机上实现起来就非常困难,甚至是不可行的.因此,本文给出了大数据集下实用的广义可加模型拟合方法,模型中的平滑项用惩罚回归样条函数来表示.只需保证在任何时候模型矩阵的子矩阵可以在计算机上实现,该方法就可以通过迭代更新的方式得到模型矩阵的因子.本文研究证明,该方法可以有效地对平滑参数进行估计.当有新数据加入时,用电量预测模型需要不断地拟合更新,并且需要对新的用电量数据序列的自相关性进行处理.本文给出了处理这些问题的方法,以及在计算机上的实现过程.该方法可以实现使用一般的中型计算机来处理大数据集的广义可加模型的估计问题.最后,对法国用电量预测的实证研究表明,降秩样条平滑方法也能够很好地处理复杂的模型问题.  相似文献   

7.
数据挖掘的任务之一:分类   总被引:1,自引:0,他引:1  
一般说来,数据挖掘问题可以分为以下几类:分类、推估、预测、同质分组和关联分组。每种问题都有许多具体的数据挖掘或统计模型来加以解决。分类简介分类问题是数据挖掘中最重要的任务之一,很多数据挖掘问题都可以转化为分类问题。分类的目的在于运用分类方法构建一个分类函数或分类模型(也常常称作分类器),该模型可以将输入数据(比如数据库中的数据项)映射到给定类别中的一个类别。比如根据个人资料预测客户是否会流失,这里就把顾客分为将流失与不会流失两个类别,再根据输入的个人资料将该客户映射到两个类中的一个里去。分类首先要做的工作…  相似文献   

8.
于力超  金勇进 《统计研究》2018,35(11):93-104
大规模抽样调查多采用复杂抽样设计,得到具有分层嵌套结构的调查数据集,其中不可避免会遇到数据缺失问题,针对分层结构含缺失数据集的插补策略目前鲜有研究。本文将Gibbs算法应用到分层含缺失数据集的多重插补过程中,分别研究了固定效应模型插补法和随机效应模型插补法,进而通过理论推导和数值模拟,在不同组内相关系数、群组规模、数据缺失比例等情形下,从参数估计结果的无偏性和有效性两方面,比较不同方法的插补效果,给出插补模型的选择建议。研究结果表明,采用随机效应模型作为插补模型时,得到的参数估计结果更准确,而固定效应模型作为插补模型操作相对简便,在数据缺失比例较小、组内相关系数较大、群组规模较大等情形下,可以采用固定效应插补模型,否则建议采用随机效应插补模型。  相似文献   

9.
数据包络分析的Excel实现方法   总被引:3,自引:0,他引:3  
一、D EA概述1978年由著名运筹学家A.Charnes、W.W.Cooper和E.Rhodes提出了一个被称为数据包络分析(Data Envelopm entA nalysis,简称DEA)的方法,用来评价具有多个输入和输出的决策单元(D ecisionM aking Units,D M U)的相对有效性。他们提出了第一个模型C2R模型。之后学者们相  相似文献   

10.
张海波  陈红 《统计研究》2011,28(9):35-41
 人民币汇率的变动对国内价格变动是否存在传导作用,这种传导是否存在阶段性,是研究人民币汇率变动与国内价格变动之间关系的重要内容,是从宏观上进行物价水平控制必须明确的重要问题之一。本文从实证的角度研究中国的汇率传递及其对价格变动的影响。结合中国实际情况,运用最新数据,将汇率变动分为三个阶段,用VAR模型进行分析,通过脉冲响应函数和方差分解的方法,发现人民币价格传递效应在不同阶段存在较大差异,且存在时滞,效应也是不完全的。  相似文献   

11.
社会经济统计学与数理统计学的关系,是统计理论界与实际工作部门共同关心并有争论的问题.我国老一辈统计学家杨坚白同志早在六十年代就研究这一问题,他的《社会经济统计学与数理统计学同异辩》(见中国社会科学院《经济研究所集刊》第二集),值得推荐给大家一读.《同异辩》涉及的问题很多,这里仅就社会经济统计学和数理统计学的关系作扼要的介绍.  相似文献   

12.
流式生存数据是一个随时间延续而无限增长的动态生存数据集合,由于数据集以流的形式不断高速到达,一旦当前批次的数据到来,经过快速处理后就要被释放,不能继续保留在内存中。基于右删失流式生存数据来解析协变量与生存时间之间的相关性时,加速失效时间模型(AFT模型)是常被使用的模型之一。文章基于带流数据集的AFT模型,通过泰勒展开构造一个Working估计方程,提出可再生估计,该估计仅依赖历史批数据集的汇总统计量和当前批数据集,有效避免了计算机对历史批数据存储带来的压力。模拟分析和实证结果表明,基于带流数据集的AFT模型提出的可再生估计方法在有限样本中的运行性能较好,在实践中具有可操作性。  相似文献   

13.
选取2001—2010年间的季度数据,利用误差修正模型和脉冲响应函数对中国M2/GDP比率对资产价格变化的影响进行实证研究。结果表明:M2/GDP比率与股票价格存在负相关关系,同时对股票价格的影响还存在着时延性,M2/GDP比率对房地产价格的影响几乎为零。这一结论为中国股市价格泡沫提供了一个早期预警指标,具有很强的政策意义。  相似文献   

14.
郭婧璇等 《统计研究》2020,37(10):104-114
随着物联网技术的进步,大数据给网络带宽和计算机存储能力带来巨大挑战,传统的集中式数据处理难以实现,客观上促进了分布式统计学习的发展。在无迭代算法研究中,Zhang等(2013)证明了当数据集个数s=O(N) 时,基于局部经验风险最小化的分治(DC)简单平均估计量具有O(N-1)均方误差收敛速度,Huang和Huo(2019)在M估计框架下进一步提出分布式一步估计量,但上述方法均未考虑海量数据可能存在的异质性对分治估计效果的影响。本文在线性模型框架下提出海量异质数据的分治一步加权估计,证明了估计量的渐近性质并考虑了异质性检验问题。将本文提出的方法应用于美国医疗保险实际数据分析,结果表明该方法能更好地拟合数据的线性趋势且显著提高了计算效率。  相似文献   

15.
张维铭 《统计研究》1989,6(3):67-71
指数平滑法是回归分析和时间序列相结合的一种预测方法。华伯泉同志在《统计研究》1986年第2期中介绍了这种方法,但没有解决平滑常数和初始统计量的合理确定问题,也没有提到模型和实际数据是否适合的检验问题;并且以普通回归方程中y的预测区间代替指数平滑法中Z的预测区间,这是不合适的。本文试图解决这些问题,并研究K个观测值总和的预测区间。 -、以时间为独立变量的回归模型 设Z_(n j)表示在时间n j的观测值,考虑如下形式的模型:  相似文献   

16.
如何判断和评价国民生产总值分配格局,是当前争议较大的一个重要问题。归纳起来,争议主要集中于两个问题:一是国民生产总值分配是否向个人倾斜;二是国民生产总值分配向个人倾斜是否合理。由于对这两个问题的争论直接影响着下阶段宏观经济政策取向.因此,正确判断和评价国民生产总值分配格局,需结合新形势进行全面分析研究。  相似文献   

17.
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。  相似文献   

18.
林存洁  李扬 《统计研究》2016,33(11):109-112
在大数据时代,传统的统计学是否还有用武之地成为很多人的争议。本文以ARGO模型为案例,介绍了统计方法在大数据分析中的应用和取得的成果,并从统计学的角度出发,提出改进的措施与方法。通过ARGO模型的分析结果发现,大数据分析的很多根本性问题仍然是统计问题,而数据中的统计规律仍然是数据分析要挖掘的最大价值,这也意味着统计思想在大数据分析中只能越来越重要。而对于结构复杂、来源多样的大数据来说,统计学方法也需要新的探索和尝试,这将是统计学所面临的机遇和挑战。  相似文献   

19.
在消费行为学领域经常碰到的离散选择数据就是Multinomial响应数据,此类数据通常采用Multinomial Logit线性回归模型来处理,不过如果回归变量中的一部分与对数机率向量间呈非线性关系,其余回归变量与对数机率向量间呈线性关系,就需要引入以对数机率向量为因变量的广义半参数回归模型来处理这类实际数据了.文章以一次手机用户生活形态调查数据为例,讨论了向量广义半参数回归模型在消费者行为研究中的应用.  相似文献   

20.
李双博 《统计研究》2018,35(6):117-128
函数型数据研究近年来为越来越多的学者所重视,其在天文,医药,经济现象,生态环境及工业制造等诸多方面均有重要应用.非参数统计是统计研究的一个重要方面,其中核函数估计和局部多项式方法是这一类研究中重要常用方法.函数型数据的非参数方法中以核函数估计方法较为常见,且其收敛速度与极限分布无论在独立情形还是相依情形都有理论结果.而局部多项式的研究在函数型数据背景下较为少见,原因在于将局部多项式方法推广到函数型数据背景一直是一个难题. Marin, Ferraty, Vieu [Journal of Nonparametric Statistics, 22 (5) (2010), pp.617-632] 提出了非参函数型模型的局部回归估计. 这种估计可以看作是局部多项式估计在函数型数据背景下的一个推广.这种方法提出后,许多学者进一步研究了这种方法,考察了这种方法的收敛速度和极限分布,并将这种方法应用到不同的模型中以适应实际需求.但是,前人的研究都要求数据具有独立同分布的性质.然而许多实际数据并不符合这一假设.本文研究了在相依函数型数据情形下局部回归估计的渐近正态性.由于估计方法有差异,核函数估计的研究方法无法直接推广到局部回归估计,而相依性结构也给研究带来了一些挑战,我们采用Bernstein分块方法将相依性问题转化为渐近独立的问题,从而得到了估计的渐近正态性.此外我们还采用数据模拟的方法进一步验证了渐近正态的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号