首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在生物医学、临床试验和流行病学等领域的研究中,由于获得生存数据的试验设计、观测时间的局限,以及观测对象在进入或退出试验时的个体差异等方面的原因,与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变量和生存时间的关系时,应用最为广泛的统计模型是Cox模型。随着科学技术的进步,数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,数据的维度通常可以达到成百上千维,甚至更高。文章提出一种Cox模型中基于Model-X Knockoffs的高维控制变量选择方法。首先基于Knockoffs框架建立一个Knockoffs变量,并基于原始协变量和其相应的Knockoffs变量构造一个正则化的目标函数,然后通过求解目标函数的最优解构造一个统计量和基于数据的阈值,最后进行变量选择。模拟分析和实证研究结果表明:所提方法可以在变量选择的同时提供可靠的FDR控制,优于传统的LASSO方法。  相似文献   

2.
利用抽样调查数据对总体参数进行推断通常分为两种途径:一种是基于设计的推断体系;另一种是基于模型的推断体系。基于设计的推断以随机化理论为基础,推断依赖于抽样设计,在大样本下估计量具有无偏性和一致性,但在样本量较小或存在非抽样误差等情况下效率较低。基于模型的推断认为有限总体是一个来自无限超总体的随机样本,推断依赖于模型假设,构建超总体模型具有很大的灵活性,有利于充分利用总体辅助信息并提高估计精度,但在模型假定有误或样本的入样过程不具有无信息性时存在估计误差。如何将两种推断途径相结合,在体现样本对总体代表性的同时,保证估计效率和估计量的优良性质,尚待研究。权数在基于设计的推断中起着核心作用,能够反映抽样设计对样本的影响,实现样本对总体的还原。将权数引入基于模型的推断,可以使基于模型推断的结果具有总体代表性,能更好地发挥两种推断体系的组合优势,并削弱模型假定对推断效果的影响。据此,从权数对于模型推断的影响入手,针对因果推断问题,提出将权数同时引入倾向得分模型和预测模型的建模过程,来构造双稳健估计的方法,并通过模拟研究加以验证。最终结果表明,根据文章所提出的方法进行处理效应的估计,能够充分发挥权数的作用,得到更准确、更稳健的估计结果。实证部分采用2017年CGSS调查数据进行分析,进一步说明在基于调查数据进行模型推断时应充分考虑抽样设计的影响,为科研人员进行因果推断以及其他基于调查数据开展的研究提供参考。  相似文献   

3.
在基于抽样调查数据对总体参数进行估计的方法中,小域估计方法能够借助于辅助信息对小样本乃至无样本区域的参数进行有效的估计,并被广泛应用于抽样估计领域。单元水平模型作为小域估计的基本模型之一,是处理单元级别数据估计的有力工具之一。在单元水平模型的应用条件中,需假定区域随机误差和模型随机误差均服从正态分布。然而,在抽样调查中,满足这一条件的调查数据是很少的,尤其是在观测数据中出现离群值时。不满足正态性假设条件下的小域估计量会产生较大的偏差和均方误,因此有必要研究针对正态性假设和离群观测值不敏感的稳健估计方法。通过引入γ散度和γ似然函数,构建了基于单元水平模型的小域稳健估计方法,得到了模型参数的稳健估计和小域目标变量的稳健估计。与现有的稳健估计方法相比,所提新方法能更好地处理区域随机误差和模型随机误差非正态的情形,对于目标变量存在离群观测的情形,具有更好的稳健性,估计均方误更小。在利用模拟数据进行验证中,比较了不同误差分布情形下几类常用估计方法得到的估计量的均方误差,并进一步探究了随着污染分布的方差和比率变化,所得估计量的均方误差变化情形。最后,通过应用于经典的小域估计数据,进一步验证了所提新...  相似文献   

4.
Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。  相似文献   

5.
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。  相似文献   

6.
客户生命周期价值计量,作为客户关系管理研究的核心内容之一,是企业识别价值客户的最有效的依据.文章从生存特征分析入手,侧重对CLV计量模型中的客户保持率参数和客户生命周期时间参数进行定量估计,提出了基于生存特征的客户生命周期价值计量模型,结合案例进行分析验证.  相似文献   

7.
复发事件数据频繁的出现在纵向研究中,基于生物医学中的多类型复发事件数据,提出了一类半参数转移模型,该模型包含了一些重要的半参数模型。同时,模型允许协变量具有加性和乘性的影响,且加性影响随时间而变化。利用广义估计方程的思想,对模型中未知参数和非参数函数进行了估计,并且证明了估计的相合性和渐近正态性。  相似文献   

8.
秦磊等 《统计研究》2018,35(6):109-116
针对具有多个来源的异质性数据,文献中通常提出复杂程度较高的模型用于描述每个数据子总体的特征,而本文着眼于刻画不同数据子总体的共性进而建立一个简单的模型。在参数估计方面,本文借鉴了普通线性模型的Maximin估计思想,提出了适用于广义线性模型的Maximin似然比估计方法及稀疏结构下的惩罚估计。该方法通过最大化所有子总体中似然比统计量的最小值,构建成一个简单而保守的模型,以减少数据来源较多而呈现的复杂性。所提方法适用于因变量服从正态分布、两点分布、泊松分布等指数族分布的情形,丰富了前人的研究成果,具有更好的实践意义。模拟分析显示,相比于经典的估计方法,Maximin似然比估计方法不仅能够有效地探寻子总体的共性,而且具有较高的样本外预测精度。本文提出的方法也适用于政府统计和经济统计中具有异质性的大型数据集。  相似文献   

9.
文章在响应变量随机缺失下,基于分位数回归研究了半参数模型的稳健估计问题。首先基于B样条基函数近似技术,将模型非参数函数的估计问题转化为样条系数向量估计问题;其次,在响应变量随机缺失下,提出了一种新的插补方法,对缺失的响应变量进行多重插补;再次,基于插补后的数据集,构造出新的分位数目标函数,得到模型非参数函数以及参数向量的稳健估计;最后给出了有效算法计算多重插补估计量。通过模拟研究验证了所提方法的有效性和稳健性。  相似文献   

10.
基于纵向数据,研究参数部分协变量含有测量误差的可加部分线性测量误差模型的估计问题,提出了用于模型估计的偏差修正的二次推断函数方法,得到参数部分的估计结果具有相合性、渐近正态性,非参数可加函数的估计结果达到最优收敛速度。数值模拟和实例数据分析结果显示,该模型估计方法在同等条件下要优于广义估计方程方法。理论和数值结果显示,偏差修正的二次推断函数可以有效地处理测量误差和个体内相关性,是一个有效的纵向数据和测量误差数据分析工具,具有一定的理论和应用价值。  相似文献   

11.
本文拓展构建了后顾、同期和前瞻三种类型的货币政策规则,并基于实时数据和最终数据实证分析数据修订和实时估计对货币政策参数的影响效应。研究结果发现,数据修订对泰勒规则的影响取决于不同模型,而且在三种模型设定中,盯住产出缺口和通胀目标的时变参数均在不同程度上受数据修订的影响。特别是,对于最终数据,采用同期性货币政策规则展开估计最为有效;而对于实时数据,则基于后顾性货币政策规则模型估计是最佳的。最后,本文在数据选择和模型匹配上提出相应的对策建议。  相似文献   

12.
自标记方法能用少量有标记样本和大量无标记样本来训练给定分类模型。误标记是自标记方法中的主要挑战。尽管学者们用数据剪辑技术去识别和移除在自标记方法迭代过程中被误预测的样本,但是许多数据剪辑技术严重依赖于特定假设。为了克服误标记问题和相关解决方案中的缺陷,文章提出一种基于近邻规则和粒子群优化的自标记方法 SLM-NNPSO。首先,SLM-NNPSO用有标记集去训练一个给定的分类模型。其次,SLM-NNPSO用近邻规则来发现具有高置信度的无标记样本,并用被训练的分类模型来预测他们。再次,SLM-NNPSO用粒子优化来识别和移除被误预测的样本,并把被正确预测的样本加入有标记集中。上述过程不断迭代,直到SLM-NNPSO没有发现具有高置信度的无标记样本。最后,SLM-NNPSO输出在迭代过程中被训练的分类模型。经仿真实验证明,就训练k近邻分类器的平均分类正确率而言,在来自销售市场、医学检测、图像识别等领域的12个真实数据集上,SLM-NNPSO优于5个流行的自标记方法。  相似文献   

13.
范新妍等 《统计研究》2021,38(2):99-113
传统信用评分方法主要利用统计分类方法,只能预测借款人是否会发生违约,但不能预测违约发生的时点。治愈率模型是二分类和生存分析的混合模型,不仅可以预测是否会发生违约,而且可以预测违约发生的时点,比传统二分类方法可以提供更多的信息。另外,随着大数据的发展,数据源越来越多,针对相同或者相似任务,可以收集到多个数据集,本文提出了融合多源数据的整合治愈率模型,可以对多个数据集同时建模和估计参数,通过复合惩罚函数进行组间和组内双层变量选择,并通过促进两个子模型回归系数符号相同,提高模型的可解释性。通过数值模拟发现,所提方法在变量选择和参数估计上均有明显优势。最后,将所提方法应用于信用贷款的违约时点预测中,模型表现良好。  相似文献   

14.
纵向网络数据是较为常见的复杂网络数据,也是目前网络数据分析的热点之一。随机块模型是网络社区发现的经典模型,但是该模型无法直接用于模拟纵向网络数据。基于随机块模型,引入半参数比例风险模型去分析纵向网络数据,并利用随机块模型来描述复发瞬间链接间隔。结合变分EM算法,采用两步估计来分别估计模型参数和非参数部分,通过不同场景下的模拟试验来验证所提议模型的优良性,最后利用法国小学生的社交网络数据进行了实证分析。模拟和实证结果表明,在统计计算的时效和参数或非参数估计的精度上,本文所提出的网络数据模型和统计分析方法比现存文献的模型和方法具有较好的优势。  相似文献   

15.
苍玉权等 《统计研究》2019,36(2):101-111
2008年以来,我国PPI与CPI走势出现了多次背离与分化,从整体上看,两者相关性很弱。但从动态视角来看,由于相关关系可能会因时而变,整体相关性有可能被关系本身的方向和强弱变化所削弱甚至掩盖。为准确反映两者相关性的动态变化,本文放宽时变系数函数的光滑性假设,提出了带跳时变系数模型,并给出一种非参数三步估计方法:首先,估计系数函数中跳点的位置和个数;然后,基于估计的跳点和Bootstrap方法选择的窗宽给出系数函数的最终估计;最后,利用蒙特卡洛模拟评价本文提出的非参数估计和窗宽选择方法的有限样本性质。通过对2008年1月至2017年12月我国PPI和CPI月度同比数据的实证分析,我们发现该模型能较好地刻画PPI与CPI相关性的时变和带跳特征,进而也验证了该模型的应用价值。  相似文献   

16.
文章提出了随机系数SETAR模型,推导出其回归系数的估计式,并把该模型应用于一个月度数据序列.实证研究表明,对于非线性时间序列数据,随机系数SETAR模型明显优于AR—MA模型。  相似文献   

17.
基于统计模型的模糊聚类算法的时间复杂度在数据集规模超过一定数量级时是计算不可行的,解决时间复杂度的一个行之有效的方法是抽样.文章通过对静态抽样进行改进,设计了一种半静态抽样法,使样本数据集最大程度得保持原数据集的信息,并保证聚类结果的不失真性;最后通过实证分析,比较并证明了该方法是有效的.  相似文献   

18.
宋鹏等 《统计研究》2020,37(7):116-128
高维协方差矩阵的估计问题现已成为大数据统计分析中的基本问题,传统方法要求数据满足正态分布假定且未考虑异常值影响,当前已无法满足应用需要,更加稳健的估计方法亟待被提出。针对高维协方差矩阵,一种稳健的基于子样本分组的均值-中位数估计方法被提出且简单易行,然而此方法估计的矩阵并不具备正定稀疏特性。基于此问题,本文引进一种中心正则化算法,弥补了原始方法的缺陷,通过在求解过程中对估计矩阵的非对角元素施加L1范数惩罚,使估计的矩阵具备正定稀疏的特性,显著提高了其应用价值。在数值模拟中,本文所提出的中心正则稳健估计有着更高的估计精度,同时更加贴近真实设定矩阵的稀疏结构。在后续的投资组合实证分析中,与传统样本协方差矩阵估计方法、均值-中位数估计方法和RA-LASSO方法相比,基于中心正则稳健估计构造的最小方差投资组合收益率有着更低的波动表现。  相似文献   

19.
文章考虑了大样本下线性回归中同时进行快速估计和变量选择的问题,即针对一个存在稀疏解的大样本线性模型,根据重要性抽样分布从全数据集抽取少量子样本,对该子样本进行自适应Lasso估计。通过随机模拟研究,将该算法分别应用在几种不同的数据集中,并从模型预测精度和可解释性两个方面比较了四种子抽样方法在该算法下的表现。模拟结果表明,所提出的算法具有良好表现,在计算开销上也具有一定优势。  相似文献   

20.
异常检测作为一种智能化的数据管控手段,在网络入侵检测、欺诈识别和故障检测等场景中都扮演着重要角色。大数据时代下,数据来源众多,给多源数据集的异常检测建模分析带来了较大挑战。本文将惩罚整合分析的思想应用到异常检测中,通过对不同数据集的模型系数差异进行惩罚,提出了基于多源数据的整合单类SVM异常检测方法。该方法可以同时对多源数据进行异常检测并自动将相似数据集聚为一类,可以大幅减少模型待估参数个数并降低后期维护成本。模拟实验表明,本文提出的方法不仅能准确将数据集聚类,而且模型预测效果优于合并数据集建模和每个数据集单独建模。该方法在某银行网站日志异常检测中也有较好的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号