首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

2.
适用于协议特征提取的关联规则改进算法   总被引:2,自引:0,他引:2  
借鉴关联规则挖掘的思想,引入序列项目集的概念,使算法能够处理集合事物和具有序列特性的项目;通过递推的方法依次得出不同长度的特征字段,并利用偏移属性集加以约束去除无效字段,有效控制约束频繁集的规模;最后依据选择策略从约束频繁集中选出最终的特征字段。实验结果表明只要选取合适的参数,用该方法提取协议特征是行之有效的。  相似文献   

3.
关于CNMARC中并列题名著录若干问题研究   总被引:1,自引:0,他引:1  
机读目录编制中客观如实著录及提供更多不同语种或字体检索点具有现实意义。文章探讨了并列题名的定义 ,重点研究 2 0 0S│d子字段、 5 1 0字段等CNMARC中并列题名相关字段数据的编制 ,透过某些数据内容形式相同的表面现象 ,剖析字段之间的本质区别 ,同时论述了字段取舍、书目记录之间的连接等问题  相似文献   

4.
为探讨医保大数据应用于智能监测分析医疗质量的信息支撑情况,研究系统性归纳国内外常见且具有高度共性的医疗质量指标,规范其概念及具体操作定义;并以福建省为案例,梳理医保业务系统数据字段与医院病案首页字段。比对不同系统数据字段并归纳质量指标,解析数据对智能化管理医疗质量的信息支撑程度。结果显示,对于临床诊疗常见质量问题(通用指标)或医保支付制度导致的质量问题(特定指标),从医保数据字段来说,尚不足以支撑对医疗质量进行定量监测,但病案首页数据字段均可满足。因此,医保部门作为最大医疗服务购买方,应同时重视医疗费用控制与医疗质量管理,尤其更需要监测因为医保支付导致的医疗服务质量问题。大数据是支撑医保智能化管理的重要基础,如何将医保大数据转化应用于医疗服务质量的监测管理,是医保下一阶段应思考的问题。  相似文献   

5.
针对神经网络在入侵检测的应用中存在入侵数据冗余信息多,数据量大,训练时间长,易陷入局部最优等问题,提出了一种基于主成分分析(PCA)和概率神经网络(PNN)的入侵检测方法。首先使用PCA对数据进行特征降维,解决了入侵数据冗余信息多的问题;然后使用PNN建立入侵检测模型;其次,使用粒子群算法(PSO)解决概率神经网络参数的优化问题;最后使用KDD99数据集对该模型进行测试。实验结果表明:该方法能够有效提高检测的效果,而且检测速度明显提高。  相似文献   

6.
基于判别分析的个人信用评分模型研究与实证分析   总被引:1,自引:0,他引:1  
在国际上,个人信用评分是个人信贷风险防范的重要环节,而目前我国还没有制订出一套规范的个人信用评分指标体系和方法。文章利用真实的个人消费信贷数据,选择合适的字段作为指标变量并进行赋值,对假设条件的检验分析后,建立了个人信用评分的多元线性判别模型并进行了检验。实证研究表明:该模型具有较好的稳健性,且具有一定的判别预测能力,但仅用训练集计算的分类正确率还不能真正地反映模型的预测能力。  相似文献   

7.
数据仓库系统的数据预处理问题研究与应用   总被引:3,自引:0,他引:3  
从数据仓库应用中的主要障碍之一——数据问题出发,对数据预处理的目标、原则、方法和具体技术进行讨论,并结合一个数据预处理设计的具体实例,分析了如何通过分层次逻辑模型解决数据预处理的透明性、产品化等具体问题。  相似文献   

8.
通过介绍计算机编目中有关题名的具有检索意义的功能字段,提出如何尽可能多地设置机读目录中的题名检索点,提高编目质量,便于读者检索;并对200字段第二指示符的选择在题名检索中的意义进行了探讨.  相似文献   

9.
作为开放网络的组成部分,校园网络的安全是不可忽视的.入侵检测属于动态安全技术,它能够主动检测网络的易受攻击点.相对于传统的入侵检测技术来说,采用模式识别的入侵检测具有检测准确度高以及能识别大量新型攻击的优点.利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,以优化朴素贝叶斯的分类性能.利用VC6.0,设计实现入侵检测的原型系统,经测试,该系统性能良好.  相似文献   

10.
传统的非结构化大数据检测方法只分析数据的统计特征、缺少对其中模糊闭频繁项集特征的识别,易出现监测结果不理想的问题。为了提高对异构集群中非结构化大数据的检索识别能力,提出一种基于模糊闭频繁项集特征挖掘的异构集群中非结构化大数据检测方法。分析异构集群中非结构化大数据的统计特征信息,并采用大数据信息融合方法对其进行状态监测和特征识别,从中提取非结构化大数据的模糊闭频繁项集特征量;利用支持向量机模型对非结构化大数据检测进行分类处理,根据不同大数据的分类属性进行自动检测识别,提高对异构集群中非结构化大数据检测的准确率和监测过程抗干扰能力。实验结果表明:采用该方法对异构集群中非结构化大数据检测的准确性和检测精度较高,具有很强的应用优势。  相似文献   

11.
小卫星温度测量冗余设计方法研究   总被引:1,自引:0,他引:1  
提出一种软硬件结合的温度测量冗余设计方法。将小卫星的温度测量按组划分,相邻的几个传感器设置为一组,同组的传感器用Bayes数据融合的方法得到对每个温度点的温度估计,并以此为依据去判定每个温度测量点的温度测量是否有效,若判定为测量数据无效则启用备用传感器。该方法用软件实现了对测量数据是否有效的判定,再用有限的硬件备份提供冗余设计,使得备份传感器的数量大大减少。  相似文献   

12.
敏感数据安全传输方法   总被引:1,自引:0,他引:1  
针对SSL协议和SET协议不适合用于小型电子商务网站,在已有利用Java中的加密技术和Applet与Servlet之间的通信技术实现建立安全通道基础上,为防止黑客的重传攻击,提出了在每次通话前服务器生成一个随机数,在数据传输过程中运用了AES加密算法,此算法增加了加密强度,并增加了传输速度。经过整合,最终实现了小型电子商务加密通道的建立和数据安全传输的过程。  相似文献   

13.
动态识别是改进我国目前可疑金融交易识别监测覆盖面不足和识别实时性较差的有效方法。针对动态识别的具体实现问题,基于数据流多维分析设计一种可疑突变特征动态识别算法。该算法根据金融交易数据流的特点,在筛选交易记录关键属性、构建数据流立方体结构以及确定通用路径的基础上,运用突变比量动态缩减时间框架,在不同维度及概念层上计算和维护立方体中数据单元的度量参数与突变比量参数,并以此为依据发现并识别出隐匿于数据流中的可疑突变特征。仿真结果表明:算法能够在有限的存储空间内完成对大规模金融交易数据流的实时处理,计算结果能够有效反映交易记录中频度、金额、类型等方面的可疑突变情况,从而达到动态识别可疑金融交易的目的。  相似文献   

14.
孤立点数据挖掘技术在审计信息化中的应用研究   总被引:1,自引:0,他引:1  
孤立点分析技术是数据挖掘的重要内容之一,可广泛应用到电信、信用卡欺骗检测、贷款审批、客户分类、气象预报和网络入侵检测等领域。在审计工作中,也可采用孤立点检测算法对审计数据进行判断和检测,帮助审计人员及时发现隐藏的审计线索,提高审计效率,孤立点数据挖掘技术比发现规律性的其他挖掘技术具有更好的现实应用价值。  相似文献   

15.
聚类分析是数据挖掘领域中一种非常有用的技术,它用于从大量数据中寻找隐含的数据分布模式,主要有分割法、层次法、密度法、网格法和模型法等。该文主要讨论数据挖掘中一种基于密度和网格的聚类分析算法及其在客户关系管理中的应用。该算法具有较高的聚类效率而且容易实现,可以发现任意形状的聚类,时间复杂度低,聚类精度高,适用于数据的批量更新。该文还提出增量式聚类技术,它不仅能够利用前期聚类的结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。实验证明了算法的有效性。  相似文献   

16.
大数据即是在一定时间内用常规数据处理方法难以抓取、管理和处理分析的非结构化海量数据集合。大数据规模巨大、类型多样,其价值主要体现在对数据的整合分析。目前大数据微层面的考察过多关注其数学属性,缺少社会学和社会心理学观照。与此同时,大数据分析人才的缺乏及其可能出现的新的数字鸿沟等问题也是各国各界必须面对的挑战。  相似文献   

17.
给定一个网络G,欲求一个所有通路的边数不超过给定的正整数k且权最小的生成树.在此给出的近似算法是从一个可行树出发,经过改进的程序,求出其近似解——局部最优解可行树,并具体给出了一个分枝定界算法.  相似文献   

18.
针对分类问题提出了一种特征选择的新算法.算法在初始化时首先任意产生几个特征集,然后被迭代多次执行,在每一次迭代过程中,用性能评估函数对所有的特征集进行评价,按照评价结果选取当前性能最优的特征集,其它所有的特征集朝着类似当前最优特征集的方向发生变化,直至完成预定的次数为止.  相似文献   

19.
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的数据均衡分布机制、抗数据偏斜的JOIN算法.分析和实验表明,该算法适合于海量数据查询并能有效地解决机群并行环境下数据偏斜所造成的查询性能低下的问题.  相似文献   

20.
在各种传感器的应用中,经常要对传感器的测量数据进行处理,以保证测量结果的可靠性.为了利用粗糙集理论处理不确定数据的优点,根据粗糙集理论的思想,先由已知测量数据提取出决策表,再进行补全、离散化等预处理,最后进行属性约简并提取出分类规则,对测量数据进行分类,剔除测量数据中的异常数据.实验结果显示该异常数据发现方法比常用的异常数据处理方法更为客观、精确和可靠.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号