首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
文章从文本特征抽取、分类算法效率和精度两个角度出发,首先利用概率潜在语义分析(PLSA)方法,有效地提取出隐舍在文档词频数据中的语义概念信息;然后构建了分类精度较高的Adaboost算法作为分类器.实验结果表明,该方法发挥了两种方法的优势,能够很好地完成对文本的自动分类.  相似文献   

2.
张华节  黎实 《统计研究》2013,30(2):95-101
 本文研究了DF类面板数据单位根IPS检验势受时序数据初始值的影响,推导了DF类面板单位根IPS检验统计量在局部备择假设下的极限分布和局部渐近势函数,发现了DF类面板数据单位根IPS检验统计量局部渐近势在异质性局部备择假设下是初始条件的单调递增函数;小样本Monte Carlo模拟分析结果表明,若假设初始条件为零,DF类IPS统计量的检验势将被低估。  相似文献   

3.
在数据挖掘的分类问题中,经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据,分类精度并不理想。文章分析了多目标线性规划分类方法(简称MCLP)在不平衡数据集上的表现;然后从模型角度,提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性,并从实证角度,与其他方法进行了比较。  相似文献   

4.
Hurst指数有多种估计方法,但传统的方法多用于描述时间序列长期统计行为的全局特征,无法刻画时间序列随着时间推移而发生变化的局部分形特征。文章引入局部Hurst指数的概念,介绍了一种适用于高频数据的采用分割窗小波谱估计局部Hurst指数的新方法,并应用于2008年1月至2010年12月中证800指数日内1分钟高频收益率的研究。实证研究结果表明,该方法具有稳健性,能较好地刻画我国沪深股市的时变分形特征。  相似文献   

5.
在统计产业化的概念下,统计的数据即是统计产品。笔者认为,讨论统计的质量问题不仅要从统计信息的生产角度考虑,而且应该从统计信息的使用角度考虑。即统计产品的质量不仅同统计信息采集加工过程中的影响因素的作用程度相关,而且同统计信息满足需要的程度相关。统计满足需要的程度可从时效性、真实性、准确性和便利性、可塑性、可比性等多方面进行考察。时效性,主要对那些具有新闻性质的统计信息和某些根据要求或协议,必须在既定时间内完成和提供的统计信息而言。对于许多统计信息来说,迅速、及时地满足需要是非常必要的,也是非常重要的,因…  相似文献   

6.
《青海统计》2005,(8):34-35
近年来,记者站在上级部门的指导和局党组的关怀支持下,全体同志齐心协力,积极配合全局的各项工作,较好地完成了统计宣传,信息编发,杂志编辑、报刊发行等工作,为我省的统计改革和新闻报道活动奠定了一定的基础,同时紧紧围绕全局工作大局,在统计信息传播数量、质量、信息的快捷程度上都有了明显的提高,反映统计事业发展的新闻稿件和揭示国民经济运行的经济类文章也屡见报端。  相似文献   

7.
公共突发事件应急统计中纵向缺失数据的处理方法研究   总被引:1,自引:0,他引:1  
缺失数据在公共突发事件的应急统计数据分析中是一个非常普遍的问题,针对公共突发事件应急统计数据的纵向数据集,提出用一种得分匹配法来进行缺失值的借补处理,并将其与另外三种缺失值处理方法进行比较,即构造各种不同缺失率的随机缺失数据集,分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理。统计分析结果表明,少数缺失值发生时,LVCF法简单而有效;随着缺失率的增加,均值抽取法和多重借补法处理效果更稳定;得分匹配法借补缺失值考虑了变量之间的相关性,最大程度地利用了数据集包含的信息,同时考虑了含缺失值变量的实际变异程度,因此取得了最好的借补效果。  相似文献   

8.
当对插补所得的“完整数据集”使用标准的完全数据统计方法的时候,往往会低估插补估计量的方差.Bootstrap方法(自助法)是非参数统计中的一种重要的统计方法,是基于原始观测数据进行重复抽样,能充分的利用已知数据,不需要对未知总体进行任何的分布假设或增加新的样本信息,进而再利用现有的统计模型对总体的分布特性进行统计推断.本文首先运用多重插补的方法对缺失数据进行了插补,之后利用Bootstrap方法对插补之后的数据进行了插补统计量的方差估计,结果表明运用Bootstrap方法进行插补统计量的方差估计更科学更准确.  相似文献   

9.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。  相似文献   

10.
对以"21世纪海上丝绸之路"为主题的3 399篇科技文献,采用关联分析、TF-IDF词频分析、LDA模型等文本挖掘手段及其可视化方法,分别针对科技文献的关键词、摘要、研究机构、发表时间、内容等信息进行文本建模与分析,从而形成全新视角下文本数据的定量研究。研究发现:对该问题的研究具有显著的区域性特征和地理溢出效应;当前研究侧重宏观战略角度,缺乏技术层面的量化研究;时间序列分析表明宏观战略与新闻类文献数量趋缓,为后续各子命题的定量分析提供了一定的空间。  相似文献   

11.
聂巧平  叶光 《统计研究》2008,25(9):71-79
 “Perron现象”是指当真实的数据生成过程为带有结构突变的(趋势)平稳过程时,传统的DF单位根检验易将其误判为单位根过程。本文考虑了水平突变、截距突变、斜率突变以及截距与斜率双突变等四种突变情形下DF统计量的检验功效,推导了前两种突变情形下DF统计量的渐近分布,并对四种突变情形下DF统计量的有限样本性质进行了探讨。本研究是对“Perron现象”的进一步深入分析,也是对DF单位根检验的进一步补充和完善。  相似文献   

12.
Rough Set综合评价算法的优化及应用   总被引:2,自引:0,他引:2  
潘德宝  傅春 《统计与决策》2006,(13):144-145
粗集理论是由波兰数学家Z.Pawlak,在20世纪80年代初提出的一种处理模糊和不精确性问题的新型数学工具,粗集理论在处理有限元集合数据时,即不需要关于数据的任何附加信息,也无需预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或隶属函数等,通过对大量数据进行分析,根据论域中等价关系的依赖关系,剔除相容信息,抽取潜在有价值的规则知识.依据粗糙集理论的对象分类能力,以及粗糙集理论中的知识依赖性和属性重要性度量方法,可以得出一种完全数据驱动的综合评价方法,它克服了传统方法存在的主观性和片面性的问题,本文将属性的同分辨能力数引入到粗糙集评价,优化了评价算法.  相似文献   

13.
刘田 《统计研究》2013,30(7):89-96
本文通过理论分析和蒙特卡洛仿真模拟,研究平稳性检验中选用的统计量与数据生成过程不一致时,非线性ESTAR、LSTAR与线性DF检验法能否得出正确的结论.研究表明,二阶LSTAR与ESTAR模型可用相同的检验方法,但前者的非线性特征更强.当数据生成过程为线性AR,或非线性ESTAR、二阶LSTAR模型时,使用DF或ESTAR检验法可得出大致正确的结论,但LSTAR检验法完全失败.数据生成过程的非线性特征越强,ESTAR较DF检验方法的功效增益越高;线性特征越强,DF的功效增益越高.当转移函数F(θ,c,zt)中θ较大导致一阶泰勒近似误差较大或c非0时,标准ESTAR与LSTAR非线性检验法失去应用条件.θ较大或c偏离0较远时,数据生成过程中线性成分增强,用线性DF检验可获得更好的检验结果.  相似文献   

14.
排序集抽样是利用辅助信息收集数据的一种有效方法,基于该抽样方法进行统计推断越来越受到人们的重视。然而,已有的研究结果仅考虑统计推断的效率而忽视了调查费用,鉴于此,文章考虑估计精度和调查费用两个方面,基于排序集样本建立了总体均值的估计量,证明了该估计量在给定的估计的精度下,降低了调查费用,并通过实例进一步说明了该抽样方案的优良性。  相似文献   

15.
综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶段,利用具有马尔可夫性的n-gram模型对分词阶段获得的多组分词模式进行判定,并基于最大似然原理确定最优的分词模式以提高分词准确率。实验结果表明,新方法有效提高了分词准确率和召回率,适用于中文文本信息挖掘。  相似文献   

16.
统计信息是社会、经济、科技信息的主体,是宏观决策和宏观调控的依据,是微观经济的引导。统计信息的处理借助于现代信息技术,这对加速统计工作的现代化进程是十分重要的。一、统计信息数码化统计信息数码化,通俗地讲,就是将统计报表、数据变换成0、1二进制比特流,在计算机中和网络中,由程序控制,按人们的要求进行加工处理。从宏观的角度来说,数码化的目的是为了方便人们能够更好地享有各种信息服务,提高统计咨询质量。从具体技术角度来说,数码化的信息与传统化的信息相比,在存储、检索、处理,传递和利用各方面都有无可比拟的优越性。本质上数码化更意味着广泛的流动性,意味着开放和不断创新。统计信息现代化管理的首要问题就是统计信息的数码化。而只有数化了的统计信息才能实现电脑化、网络化。  相似文献   

17.
随着统计信息是社会经济信息主体这一观点被社会所接受,统计资料日益被新闻媒介所重视,形成了以统计资料为主要报道素材的统计新闻。无论从内容还是形式上,统计新闻都有别于一般的社会新闻、经济新闻、科技新闻,有着自己的特点。  相似文献   

18.
 在改革开放的新形势下,我国政府统计部门开展了农村住户等一系列农村统计调查,为解决“三农”问题提供了多方面的数据信息。本文通过分析总结现行农村住户抽样调查方案中存在的各种矛盾和问题,利用国际上前沿的连续性抽样调查方法作为理论基础,分别从农村住户抽样框的构建、连续各期调查样本的抽取、二维平衡轮换模式的设计、连续性抽样估计及其方差估计和连续时间序列数据的调整分析等角度提出一系列改革措施,从而设计出更加科学的调查方案,为及时、准确地搜集和提供关于“三农”问题的数据信息服务。关于其它类型的抽样调查方案亦可按照本文研究的思路类似地加以设计和解决。  相似文献   

19.
孙怡帆等 《统计研究》2019,36(3):124-128
从大量基因中识别出致病基因是大数据下的一个十分重要的高维统计问题。基因间网络结构的存在使得对于致病基因的识别已从单个基因识别扩展到基因模块识别。从基因网络中挖掘出基因模块就是所谓的社区发现(或节点聚类)问题。绝大多数社区发现方法仅利用网络结构信息,而忽略节点本身的信息。Newman和Clauset于2016年提出了一个将二者有机结合的基于统计推断的社区发现方法(简称为NC方法)。本文以NC方法为案例,介绍统计方法在实际基因网络中的应用和取得的成果,并从统计学角度提出了改进措施。通过对NC方法的分析可以看出对于以基因网络为代表的非结构化数据,统计思想和原理在数据分析中仍然处于核心地位。而相应的统计方法则需要针对数据的特点及关心的问题进行相应的调整和优化。  相似文献   

20.
从信息管理角度考查,政府统计如何提高数据的生产、传递效率,是一项人们较少研究的课题。文章以政府统计信息系统为切入点,通过构建二级平台模型,即统一的数据采集管理平台上运行业务处理系统,实时数据仓库平台上运行数据查询和信息发布系统,提出了我国政府统计信息系统理论模型,而这一模型从理论到实践都迫切需要改革我国目前的政府统计管理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号