首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
本文基于关键词集的中文文本特征表示方法,将本体和词共现的思想引入到中文文本的特征表示中,能够更加准确地表达中文文本特征,进而提高中文文本聚类的质量.  相似文献   

2.
田华 《经营管理者》2013,(23):371-371
中文自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈,本文试从概念、方法和当前存在主要困难及其解决方法三个方面进行了阐述。  相似文献   

3.
随着信息技术的高速发展以及计算机以及其他智能工具的普及,搜索引擎在人们日常获取信息的渠道中占据了越来越重要的地位.百度、谷歌、必应是目前在世界范围内应用最广泛的三种搜索引擎工具.用户仅需在搜索引擎的对话框界面输入自己所要搜索目标的关键词,搜索引擎便可以迅速返回可能与用户搜索目标相关联的列表搜索结果,极大地节约了用户的工作时间,减少了用户需要面对的冗余信息.然而,随着互联网信息的快速膨胀,信息的多义性也日趋复杂.与此同时,用户使用搜索引擎的需求和方向日益增长.用户群体的发展也对搜索结果的质量提出了更高的要求.本文基于已有的基于聚类技术的搜索引擎设计,提出了针对聚类结果的改进方法以及基于信息可视化技术对聚类结果进行可视化输出.以知识体系化的方式有层次的输出搜索结果,提升用户的信息检索和使用效率.  相似文献   

4.
本文将Haugh和Hong提出的信息溢出统计量与滚动窗方法相结合,建立两类时变信息溢出统计量,并给出滚动窗大小的选取准则.Monte Carlo模拟表明,两类统计量可以较好地刻画信息溢出的时变性特征,且基于Hong统计量的时变统计量具有更高的检验功效.实证表明,上海期货交易所(SHFE)和伦敦金属交易所(LME)铜期货市场间的信息溢出具有明显的时变特征,且SHFE在国际铜期货市场的影响力存在提升趋势.  相似文献   

5.
通过技术跟踪,可以了解某一技术领域的现状和发展态势,为技术战略的制定提供决策信息支持.当前,基于共引聚类分析的技术跟踪研究获得了长足的发展,但仍然存在一些问题,主要表现在数据关联的计算和聚类效率的提升上.基于此,文章从构建共引关联模型,改进系统聚类算法二个方面对共引聚类进行改进,并根据改进的共引聚类方法设计了基于多维标度模型的技术跟踪二维可视化工具.在此基础上,以公路工程领域为例,从个人、机构层面进行可视化实验,并着重对中国在此领域的技术情况进行详细的分析,以此判别技术领域的深层次结构,为技术跟踪的相关研究做一些支撑性工作.  相似文献   

6.
医疗决策案例中非连续性属性信息大量存在,含该类信息的案例知识发现是多属性案例决策的关键和难点。该文研究了含非连续性属性信息案例中的决策知识发现,将条件概率和GAs融合技术整合到案例推理方法之中,开发了KNN的延伸方法--CRMGACP法。该方法的核心是基于Gas进行权重获取和基于融合条件概率的改进相似度算法进行案例知识获取。在某大型综合医院收集数据,获取有效数据300条,基于VC++开发实现的BC-CBRsys平台进行了实验研究,结果表明CRMGACP比其他常见方法具有更好的性能,在多个统计指标上展示出显著的优势。显然,改进的案例决策方法克服了含非连续性信息案例决策知识难以获取的问题,在临床决策领域具有广阔的前景。  相似文献   

7.
信息高度发达的时代要求对信息的处理具备有效而高效的技术,数据挖掘正是为此而产生并发展的,在数据挖掘中不同的任务所利用采用的计算方式也不同,本文就针对一种基于信息统计的数据挖掘算法进行了简要的介绍。  相似文献   

8.
中文网络客户评论的产品特征挖掘方法研究   总被引:13,自引:0,他引:13  
随着互联网的广泛应用,在Blog、BBS、Wiki等网络站点中出现了大量的针对商品或服务的客户评论,这些客户评论中所包含的丰富信息,对企业管理具有重要的价值.通过数据挖掘算法对客户针对某一产品的大量评论进行分析,可以挖掘出这些产品的主要特征,并有望进一步发现客户对这些特征的意见和态度.在英文世界中已经有学者开始对这一研究进行探索,然而由于语言结构等方面的差异,英文的研究成果尚无法直接应用于中文客户评论的挖掘中.本研究针对中文的特点,提出了面向中文的客户评论挖掘方法.该方法基于改进关联规则算法实现了针对中文产品评论的产品特征信息挖掘.本研究采用通过互联网获得的针对手机、数码相机、书籍等5种产品的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有效性.  相似文献   

9.
本论文研究智能招投标系统中针对供应商投标PDF电子文档的信息提取技术。研究内容包括PDF文本信息提取和表格提取中的表格结构还原和数据对齐问题。通过设计并实现相关功能和算法,包括软件架构、内容解析器类算法、文本提取模型和表格提取模型,实现了自动识别和提取关键信息并保存到数据库中。此外,将OCR技术与信息提取技术相结合,解决了扫描PDF文件的识别和提取问题,提高了文本和表格信息的完整性和准确性。本论文的研究成果对于存档历史投标文件的快速处理和专家评标过程中的信息提取具有重要意义,为智能招投标系统的进一步发展提供了支持。  相似文献   

10.
云制造环境下的服务匹配具有资源数量大、语义信息不对称、QoS多样化和模糊化的特点,同时企业有自主选择匹配结果的需求。为此,提出基于本体和模糊QoS聚类的三阶段供应商匹配模型。首先构建本体模型和供应商服务描述模型,运用语义本体既消除了信息的不对称性,又增加了语义信息的完整性。此外,对QoS的多属性信息进行三角模糊化处理,结合模糊偏好和优化的模糊C均值聚类(FCM)算法按需聚类,提高了收敛速度和精度,得出基于匹配度排序的结果集合。实例验证结果表明:本文匹配方法较传统方法有更高的适应性和查准率。  相似文献   

11.
用户智能导航模式发现已经成为电子商务领域中的一个研究热点。为此,结合电子商务站点用户网页访问时间与网页关键字信息对用户访问兴趣进行定义,借鉴经典隐马尔可夫链模型,建立用户兴趣导航模型。给出在此模型中用户兴趣导航路径的发现方法及算法描述。通过模拟数据、某B2C在线图书销售站点中的真实数据以及与经典方法的对比等方面的实验验证,结果表明:给出的模型方法能够准确、高效地找到带有用户访问兴趣的关联路径信息。这个方法可以作为一种应用于电子商务领域更为有效、实用的智能导航发现工具。  相似文献   

12.
牛奔  郭晨  唐恒 《中国管理科学》2022,30(12):131-140
针对混合属性数据聚类问题,本文提出一种基于多目标多元学习细菌觅食优化算法。首先,基于改进的细菌觅食优化算法,提出多目标优化算法框架。然后,提出多元学习策略来提高算法性能。具体地,对于细菌个体,细菌之间采用环形拓扑学习策略,每个细菌只能向其邻域最优个体学习;细菌个体还可以向外部档案非支配个体学习。通过该学习策略,不仅可以保持种群的多样性,也可以加快算法收敛速度。对于外部档案非支配个体,记录其变化趋势,当非支配个体的变化处于停滞状态时,采用精英学习策略对非支配个体进行微扰动,提高非支配解的多样性。最后,为解决混合属性数据聚类问题,设计了一种具有属性权重的混合属性转换策略。为了验证所提算法的性能,将该算法与两个多目标进化算法和三个经典聚类算法在六个标准数据集上进行对比实验。实验结果表明,所提算法在解决数值、分类和混合属性数据聚类问题上具有显著优势。同时,以金融领域信用卡申请客户数据为例,进一步证实了所提算法的可行性,也表明了所提算法在涉及混合属性数据集的医疗、管理、工程等领域有一定的应用前景。  相似文献   

13.
Amathematical programming clustering model that forms groups based on total group membership interactions is extended to include precedence relationships, group size limits, and group time limits. The extended clustering model is most appropriate for structured design of information systems as described by the computer-assisted process organization (CAPO), which requires certain ordering and may have limits on development and production capacity. An efficient algorithm for optimizing the CAPO criteria along with computational results is presented. The results show that the method is viable for the CAPO problems reported in the literature.  相似文献   

14.
一种基于信息熵与K均值迭代模型的模糊聚类算法   总被引:1,自引:0,他引:1  
本文提出了基于信息熵和K均值算法混合迭代模糊聚类的细分模型,解决了模糊聚类的原型初始化参数问题。将信息熵和K均值算法引入模糊聚类中进行分析,并结合测试样本数据进行实际分析,与传统方法相比,取得了较好的效果。  相似文献   

15.
针对传统基于判断矩阵的专家模糊核聚类赋权方法,由于归一化条件的制约,导致离群点对聚类结果产生不良影响的问题,提出一种改进型模糊核聚类算法。该方法在聚类过程中,通过放宽归一化约束条件,削弱离群点对聚类结果的影响;并且针对传统基于信息熵与一致性系数线性耦合的聚类标准的局限性,提出一种基于偏差熵的赋权方法,依据专家对自身类别的聚类贡献度,确定专家权重,克服了传统方法的不足。算例表明,该方法可行、有效。  相似文献   

16.
电力用户价值画像对于提升我国供电企业的营销服务资源配置效能,提高智慧营销管理水平,从而最大化撬动供电企业的综合效益具有重要的现实意义。现有工业电力用户价值画像模型评级指标体系未能反映国家最新能源政策对我国工业企业的发展要求、无法良好应对现实电力用户用电数据的稀疏性,以及对于新用户价值等级预测的准确性存在提高空间。针对以上问题,本文集成数据挖掘技术中的谱聚类算法(Spectral Clustering, SC)与智能算法中的粗糙集理论(Rough Set, RS),构建了一种优化的数据驱动型工业电力用户价值画像模型,简称SC-RS模型。新模型构造围绕“知识萃取-知识推理-知识服务”的逻辑脉络展开,首先,在“知识萃取”部分,结合我国“碳达峰”目标与“碳中和”愿景,构建优化的我国工业电力用户价值评级指标体系,此外,采用谱聚类技术,并联合网格搜索策略,提炼用户价值等级信息情报;然后,在“知识推理”部分,应用粗糙集理论,继承已有三维规则挖掘框架,构建基于ChiMerge离散法与变异系数的行约简、基于系统依赖度的列约简、基于对象确定性因子的格约简,以及基于规则强度的规则提取方案这一拓展的四维规则挖掘模型,生成用户价值等级规则库;最后,在“知识服务”部分,一方面运用用户价值等级信息情报,构造价值决策系统,以及描摹群体用户价值画像,另一方面运用规则库,呈现可理解的价值知识,以及构造价值等级规则软分类器,实现新用户价值等级预测与个体价值画像描摹。为了展示模型的应用路径与具体步骤,采用实际工业电力用户数据,对模型开展实证研究。结果表明,SC-RS模型构建的评级指标体系紧跟我国电力行业最新发展动态,具有较强先进性;模型能够兼容稀疏性数据,对数据要求低;构造的粗糙四维规则挖掘模型可行有效,且对新用户价值等级的预测准确性高。综上,SC-RS模型能够对电力用户大数据实现价值情报挖掘与利用,是为我国电力企业智慧营销管理赋能的有力工具。  相似文献   

17.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效.  相似文献   

18.
通过社会媒体信息预测股票行为已经成为近年来金融和知识管理等领域的研究热点。考虑到社会媒体参与人员和讨论话题的多样性,传统的基于整体层面分析社会媒体信息来预测股票行为的方法过于粗糙。本文根据社会媒体信息在写作风格和内容特征上的不同,利用文本特征提取技术、主成分分析法、EM聚类技术等分析参与社会媒体的干系人和他们关注的话题。进一步,我们针对每类干系人和话题,从信息活动强度和情感倾向两个方面提取四个社会媒体变量构建股票行为的回归预测模型,用以分析各干系人和话题在社会媒体上的活动状况对公司股票行为的影响。最后,本文以雅虎金融论坛的Bank of America板块为实验平台进行实验研究,验证了所提出方法的有效性和实用性。  相似文献   

19.
This study addresses the part-machine grouping problem in group technology, and evaluates die performance of several cell formation methods for a wide range of data set sizes. Algorithms belonging to four classes are evaluated: (1) array-based methods: bond energy algorithm (BEA), direct clustering analysis (DCA) and improved rank order clustering algorithm (ROC2); (2) non-hierarchical clustering method: ZODIAC; (3) augmented machine matrix methods: augmented p-median method (APM) and augmented linear clustering algorithm (ALC); and (4) neural network algorithms: ART1 and variants: ART1/KS, ART1/KSC, and Fuzzy ART. The experimental design is based on a mixture-model approach, utilizing replicated clustering. The performance measures include Rand Index and bond energy recovery ratio, as well as computational requirements for various algorithms. Experimental factors include problem size, degree of data imperfection, and algorithm tested. The results show that, among the algorithms applicable for large, industry-size data sets, ALC and neural networks are superior to ZODIAC, which in turn is generally superior to array-based methods of ROC2 and DCA.  相似文献   

20.
本文针对传统关联规则挖掘算法产生大量冗余规则,提出了对关联规则结果进行二次挖掘,并设计了算法对挖掘出的关联规则进行聚类,然后基于已有领域知识对聚类后的关联规则进行新颖度评价,对于新颖度较高价值较大的关联规则可以存储于领域知识库用于决策使用或再次挖掘过程。该算法有效的减少的规则的数量,提高了规则的新颖性和精确度,对商业应用具有很高的价值。文章最后使用UCI开源数据进行了实验分析,并验证了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号