共查询到20条相似文献,搜索用时 31 毫秒
1.
分类回归模型是回归模型家族的一个重要组成部分.文章针对现有的分类回归模型均采用选择性回归计算所存在的问题,建立了贝叶斯平均分类回归模型,并将其用于人民币汇率预测的实证研究.在实证研究时选取人民币对主要货币的汇率序列,对使用时间序列模型的预测结果与贝叶斯平均分类回归模型的预测结果进行对比分析,证明贝叶斯平均分类回归模型确实能够提高预测准确度.还使用贝叶斯平均分类回归模型对比分析了现有研究文献的预测效果,结果表明分类回归模型具有一定程度的优越性. 相似文献
2.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法. 相似文献
3.
4.
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类.SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据.文章利用Hadoop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理.最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率. 相似文献
5.
6.
以中国知网中"统计与决策"期刊1985-2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行投影,通过社团分割和介数中心性计算核心年度文档和核心主题以及其对应的关键词.文章克服了共词网络分析法对同名异意,异名同意的问题,实现自动挖掘科技文献主题. 相似文献
7.
文章研究了会员制营销中会员分类的问题,建立了基于1ogistic回归模型的会员制营销客户分类方法,该方法可以充分利用会员数据库中信息,找出影响会员忠诚度的因素并加以量化.该分类方法不仅可以用来对老会员进行客观准确的分类,而且可以用来预测新会员能否成为忠诚客户,为决策者制订个性化服务策略提供了重要参考依据. 相似文献
8.
企业统计信息的管理是一个全过程管理:它包括了信息的收集、整理、分类、分析等过程.统计信息流程从信息收集开始,通过对信息的整理、分类,从而完成对信息的分析,而分析信息中所含内容的实际意义,并不是单纯的了解信息本身所代表的意思,更重要的是通过对信息的统计与分析,从而对影响甚至是阻碍企业发展的问题得以更深入的认识,对企业内部所存在的问题给予正确的评价,接下来就是针对存在的问题,要制定相应的决策. 相似文献
9.
当前股票市场一般按行业将上市公司分类,也存在一些比较笼统而含糊的概念,如“绩优股”、“重组股”等,缺乏相对科学合理的上市公司资信评估指标体系.证券市场健康有序发展,引导资金合理流动,优化资源配置等功能的正常发挥有赖于理性投资.而投资者的理性行为又在很大程度上取决于对证券市场信息,尤其是上市公司的信息了解是否充分.由于机构投资者有专门的部门研究上市公司的财务状况和经营状况,中小投资者因欠缺一定的财务、会计等知识,其投资行为受直觉和外界影响较多,这样就客观上加重了信息不对称问题. 相似文献
10.
文章从文本特征抽取、分类算法效率和精度两个角度出发,首先利用概率潜在语义分析(PLSA)方法,有效地提取出隐舍在文档词频数据中的语义概念信息;然后构建了分类精度较高的Adaboost算法作为分类器.实验结果表明,该方法发挥了两种方法的优势,能够很好地完成对文本的自动分类. 相似文献
11.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果. 相似文献
12.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。 相似文献
13.
14.
基于统计模型的模糊聚类算法的时间复杂度在数据集规模超过一定数量级时是计算不可行的,解决时间复杂度的一个行之有效的方法是抽样.文章通过对静态抽样进行改进,设计了一种半静态抽样法,使样本数据集最大程度得保持原数据集的信息,并保证聚类结果的不失真性;最后通过实证分析,比较并证明了该方法是有效的. 相似文献
15.
16.
17.
18.
现有聚类分析测量的高等教育系统多样性存在着忽略院校类别分布和类别差异程度等主要缺陷,文章提出的基于先验分类信息、基于最佳分类数以及基于类数和距离关系的三种测量方法可对现有测量进行有效地改进.中国高等教育系统多样性测量的案例显示:三种测量方法具有较高的一致性. 相似文献
19.
为简化ANN网络结构、降低MSVM识别的复杂度,提高动态过程质量异常模式识别效率,文章提出了基于ANN-SVM的动态过程质量异常模式识别模型.首先,在ANN分类器中应用均值特征把整体变化趋势上具有相似性的六种质量模式划分为三大类别.其次,利用SVM分类器对这三类进行再识别.应用均值特征构建的ANN网络结构简单,无需对其进行参数优化,并且ANN分类器将多分类问题转化为三个两分类问题,降低了MSVM的分类数.仿真结果表明:所提出的识别模型比单一采用ANN或MSVM分类器的整体识别精度均有显著提高,且大大缩减了模型训练时间. 相似文献
20.
现有聚类方法都是基于消费者全部的行为信息,对于观测不完全的信息,提出了三阶段聚类方法。首先,使用样本数据的全部信息对消费者聚类;接着仅使用人口统计变量建立分类模型;最后对上述结果进行修正。三阶段聚类方法最大优点是可以将没有入选样本的个体分配到由样本个体得到的行为集群中去,将这个方法应用于电视行业,得到了很有实际应有价值的结果。 相似文献