共查询到20条相似文献,搜索用时 15 毫秒
1.
利用大数据进行抽样,很多情况下抽样框的构造比较困难,使得抽取的样本属于非概率样本,难以将传统的抽样推断理论应用到非概率样本中,如何解决非概率抽样的统计推断问题,是大数据背景下抽样调查面临的严重挑战。本文提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到类似于概率样本的基础权数;三是估计,可以考虑基于伪设计、模型和贝叶斯的混合概率估计。最后,以基于样本匹配的样本选择为例探讨了具体解决方法。 相似文献
2.
设一天内,来到某商场的顾客数服从参数为θ的泊松分布,考虑检验问题“H1∶θ=θ1←→H2∶θ=θ2”,文章给出在给定显著性水平为α和β时的序贯概率比检验(SPRT),证明了SPRT检验法中h的存在性,并给出了样本容量的估计值.随机模拟结果表明其平均样本容量比经典的Neyman-Pearson检验法需要的样本容量小的多. 相似文献
3.
一、二项分布和泊松分布的导出过程的剖析和应用二项分布和泊松分布是两类最熟悉不过的重要离散型分布,而且这两个分布的概率函数有密切的联系。下面先给出概率论教材中这两个分布的数学导出过程:(一)二项分布设n次贝努里试验满足条件:(1)每一次试验中事件A发生的概率是不变的, 相似文献
4.
5.
十四、概率上限和概率下限在理论和实际中有什么作用? 由于具体的或认识上的概率的上、下限产生于不同的环境,短语概率“上限”和概率“下限”可以从不同的角度来解释。在格罗宁根,从20世纪70年代中期以来,就有一种对后验概率构造置信区间的传统[126,4]。在罗吉斯蒂回归中,即使对比例风险回归模型,也可得到类似的结果,见[70,17]。标准误和置信限加深了评估中涉及的统计不确定性的印象。除了这些统计不确定性外,还存在系统误差引起的不确定性:参数模型在某种程度上总是错误的。因此将精力集中在这些统计不确定性上多少是一种误导。然而在… 相似文献
6.
《统计与信息论坛》2022,(3):3-13
利用抽样调查数据对总体参数进行推断通常分为两种途径:一种是基于设计的推断体系;另一种是基于模型的推断体系。基于设计的推断以随机化理论为基础,推断依赖于抽样设计,在大样本下估计量具有无偏性和一致性,但在样本量较小或存在非抽样误差等情况下效率较低。基于模型的推断认为有限总体是一个来自无限超总体的随机样本,推断依赖于模型假设,构建超总体模型具有很大的灵活性,有利于充分利用总体辅助信息并提高估计精度,但在模型假定有误或样本的入样过程不具有无信息性时存在估计误差。如何将两种推断途径相结合,在体现样本对总体代表性的同时,保证估计效率和估计量的优良性质,尚待研究。权数在基于设计的推断中起着核心作用,能够反映抽样设计对样本的影响,实现样本对总体的还原。将权数引入基于模型的推断,可以使基于模型推断的结果具有总体代表性,能更好地发挥两种推断体系的组合优势,并削弱模型假定对推断效果的影响。据此,从权数对于模型推断的影响入手,针对因果推断问题,提出将权数同时引入倾向得分模型和预测模型的建模过程,来构造双稳健估计的方法,并通过模拟研究加以验证。最终结果表明,根据文章所提出的方法进行处理效应的估计,能够充分发挥权数的作用,得到更准确、更稳健的估计结果。实证部分采用2017年CGSS调查数据进行分析,进一步说明在基于调查数据进行模型推断时应充分考虑抽样设计的影响,为科研人员进行因果推断以及其他基于调查数据开展的研究提供参考。 相似文献
7.
通过对航班运行流程闭环不同阶段的分解分析,识别出航班延误的关键原因包括流量控制、军事活动、天气等不可控因素和安检、旅客、机械故障、机场、公共安全等可控因素。运用数理推导和实证分析,验证了飞机起飞到达服从泊松分布,航班延误符合指数分布。通过构建航班延误总动态排队模型,并基于典型机场数据的模拟仿真分析,证明各因素引发的航班延误频率高低及其影响程度并非完全一一对应。航空公司因素发生频率最高、影响最大;流量控制发生频率较高、影响大;天气因素发生频率较高、影响较大;军事活动发生频率一般,但影响大;机械故障频率较低、影响较大;机场因素频率较低、影响较小。 相似文献
8.
本文对国内统计学教材抽样推断原理与区间估计之间内容安排上存在的问题,提出借鉴国外教材的内容安排的建议。 相似文献
9.
实际推断原理为我们提供了检验统计假设的方法,即做一次试验,如果小概率事件A发生了,则我们有理由怀疑假设H0,但事实上这种检验法本身,并不是从逻辑上严格论证明H0正确与否,在统计中我们不能证明任何统计假设的真伪,而是对统计假设作出拒绝或接受的判断,而这样作统计判断本身就有可能犯错误。即第一类错误a的概率与第二类错误β概率。但是这两类错误在教学中一般没有过多,过深涉及,以至于它们之间内在联系,往往给初学者带来了误解,本文将就此作进一步的讨论,仅供参考。1.β概率是统计推断本身方法产生的,在进行假设时.如果不否定原假设H0,… 相似文献
10.
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。 相似文献
11.
考虑利率和保费随机收取的风险模型 总被引:5,自引:0,他引:5
文章在传统风险模型的基础上,引入了利率因素,并且将保费收取次数视为一随机变量,讨论了保费收取次数服从泊松过程的情形下,破产概率所满足的积分微分方程及其指数型上界。 相似文献
12.
文章分析了由一个中心仓库和多个零售商构成的两级供应链配送系统,研究了其基于泊松需求假设的级库存(R,Q)策略的优化和应用;对中心仓库在随机的提前期内的需求分布和缺货引起的零售商订货时延,提出了优化级库存订货点的迭代计算算法,并给出了具体的算例. 相似文献
13.
基于抽样设计推断与基于模型推断是有限总体推断的两个不同途径。文章针对基于模型的推断方法-最优线性无偏估计(BLUE)进行了讨论,指出在特定的超总体模型下,BLUE与基于抽样设计的估计是一致的。数值分析解释了模型推断的优越性。 相似文献
14.
15.
16.
本文从二项分布的两种近似计算法即泊松分布近似和正态分布近似入手,构建计量模型对两种近似计算的有效性进行验证,得出了用泊松分布和正态分布在相应条件下近似计算二项分布的合理性。 相似文献
17.
文章针对非概率抽样统计推断问题,提出了一种解决方法:首先采用倾向得分匹配选择样本,然后采用倾向得分逆加权、加权组调整和事后分层调整三种方法对匹配样本进行加权调整来估计目标总体,并比较不同方法估计的效果.蒙特卡罗模拟与实证研究表明:当网络访问固定样本大小与目标样本大小的比率小于3对,三种加权方法估计的效果均比未加权时匹配样本的估计效果好;当网络访问固定样本大小与目标样本大小的比率不小于3时,倾向得分事后分层调整与未加权的匹配样本估计效果较好. 相似文献
18.
老年抚养比能够衡量人口老龄化程度,但它并不包含健康和预期剩余寿命等信息,因而无法识别工作人口对不健康老年人口的负担程度,从而影响健康老龄化相关公共政策的制定。基于此,文章将老年抚养比分解为健康和不健康老年抚养比,利用贝叶斯推断构建基于发病率、死亡率等参数的数理模型,并对2020—2050年中国健康老年抚养比进行了实证测量及国际比较。实证结果表明:目前老年抚养比为18.4%,而健康和不健康老年抚养比分别为8.1%和10.3%,显著高于欧美和日本等发达国家,这意味着中国养老和医疗负担较重;2030年以后健康老年抚养比将逐步超过不健康老年抚养比,养老和医疗负担将有所缓和。 相似文献
19.
负二项分布的两种近似分布及其比较 总被引:2,自引:0,他引:2
负二项分布是一个重要的离散型随机变量的分布,可以用泊松分布和正态分布作为其近似分布,通过对两种近似分布进行比较分析,结果表明:在参数q很小时,泊松近似的精度好于正态近似,而且在参数q很小时,即便r不是很大,用泊松分布也能获得负二项分布较好的近似;当参数q较大时,泊松近似效果不好,相比之下,正态近似的结果不错。 相似文献
20.