首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 734 毫秒
1.
基于WEKA平台的文本聚类研究与实现   总被引:1,自引:0,他引:1  
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案.  相似文献   

2.
该文提出了一种针对中文专利文本的聚类方法.使用自组织特征映射算法获得初始的聚类中心,并以此作为K-means算法的初始输入,从而得到最终的聚类结果.这样的组合可以在提高聚类准确率的同时,降低运行时间.在聚类之前还对文本进行LSI降维操作,降低了特征向量的维数,使得SOM和K-means两个对维数敏感的算法可以更加有效和快捷.  相似文献   

3.
针对油水井生产记录文本中包含的宝贵信息,文章基于知识图谱技术和中文文本处理的常规流程,提出一种自底向上构建油水井生产信息知识图谱的理论方法,用更接近人类认知的方式来重新组织数据,以期提高文本数据的利用率。  相似文献   

4.
P2P借贷让借款人可以通过借款陈述文本去获得投资者的信任,所以借款陈述又成为投资者识别借款人违约风险的重要信息来源。但是如何解读复杂的、不规则的、包含各种信息的借款陈述面临较大挑战。针对违约风险的两个来源:还款能力和还款意愿,以及它们的潜在因素,从P2P借贷平台‘人人贷’借款项目中的借款陈述文本中,通过人工识别提取了文字特征信息、反映还款能力和还款意愿的信息以及对资金需求的情感特征信息,并检验这些信息对识别借款人违约风险的显著性。研究发现借款陈述文本的字数越多、存在重复语句,违约风险越大;借款陈述文本中存在还款能力信息,或者同时存在表示还款意愿的保证性语言以及对自己信用状态补充说明的信息,则违约风险越小;借款人在情感上表现出对资金需求的急切性越高,违约风险越大。研究结论为将来运用程序实现智能文本算法识别借款陈述文本中的违约信息提供了研究方向。  相似文献   

5.
本文运用文本挖掘技术,对2008-2018年1297家上市公司年报的管理层讨论与分析(MD&A)进行文本分析。从文本质量特征、文本词汇特征和文本语调特征等角度量化计算文本相似度、文本情感值、文本可读性三个维度文本披露指标,采用Logistic模型、决策树模型、支持向量机和神经网络模型四种方法构建上市公司信用风险预警模型,实证检验加入MD&A文本信息披露指标后信用风险预警模型的预测能力。实证结果表明:(1)在加入文本信息披露指标后,信用风险预警模型的预测准确度得到显著提升,多维度文本信息披露指标比单维度文本信息披露指标对信用风险预警模型预测准确度提升效果更优;(2)Logistic回归模型的预测准确度在样本数量较低时要优于决策树、支持向量机与神经网络,随着样本数量的增加,支持向量机和神经网络的预测准确度会明显提升;(3)不同特征的文本信息内容与企业是否发生信用风险均显著相关。本文的研究结论为提高信用风险预警的预测准确性提供了方法和经验证据,对于投资者与相关学者研究市场有效性提供新的研究视角。  相似文献   

6.
汪克夷  齐丽云 《管理学报》2007,4(3):273-278,311
基于文本聚类技术在移动通信行业客户服务文本记录分类中的应用研究,构建了文本分类处理的概念模型。采用集合式表示方法对客户知识进行定义,通过向量空间模型进行文本转化和数据矩阵的构建,提出了TF-MI函数进行特征词的权重计算,利用层次聚类进行数据处理,并通过类别判断的4条准则进行了聚类结论分析和讨论,从而进一步强调了文本聚类技术在移动通信行业客户服务系统知识获取工作中的实用价值。  相似文献   

7.
吴洁  桂亮  刘鹏  盛永祥 《中国管理科学》2022,30(12):185-197
专利审查周期缩短政策的提出与专利申请数量急剧增加的现状给实现专利技术领域识别的专利分类工作带来巨大挑战,如何引入专利自动分类技术提高专利分类工作效率、缩短专利审查周期成为重要研究主题。本文提出基于多维特征和图卷积网络的专利技术领域自动识别方法。该方法根据文献计量学与图表示学习理论从专利摘要、引证专利、专利发明人维度提取专利特征;其次利用专利摘要维度特征生成表征专利文本特征的专利-核心词汇异构网络,并将引证专利、专利发明人维度特征作为专利数字特征嵌入专利-核心词汇异构网络;通过图卷积网络进行半监督学习,确定专利-核心词汇异构网络中专利节点的类别标签,完成专利自动分类任务。为验证本文所提方法的识别效果,采用Incopat全球专利数据库中专利数据进行实验;实验结果表明专利文本特征与专利数字特征共同作为专利特征可以提高专利分类准确率,引证专利信息的引入可以提高专利分类准确率。同时,本文所提方法也给专利技术领域自动识别问题提供新解答思路,为缩短专利审查周期政策的实施提供支撑。  相似文献   

8.
本文研究管理者出于自利动机的年报文本信息复杂性披露策略。研究发现,相比于业绩较好公司,业绩较差公司年报文本信息的复杂性更高,且上述关系在盈余管理空间小、管理层持股比例大、两职合一和法律风险低的公司中更为显著;进一步地,年报文本信息复杂性越高,管理者获得的超额薪酬越高;相比业绩较好公司,业绩较差公司年报文本信息复杂性的短期、长期市场反应更积极。研究表明,出于自利动机,管理者会操纵年报文本信息复杂性;文本信息复杂性操纵对数字信息操纵有替代作用,且管理层持股及公司内、外部治理均会影响文本信息复杂性操纵;通过操纵年报文本信息复杂性,管理者能够获取更高超额薪酬,并提高公司市场估值。本文首次基于中文年报文本信息大样本分析,为已有文本信息复杂性披露策略研究提供了实证证据,验证了数字信息和文本信息操纵手段间的替代效应,拓展了机会主义披露研究。本文的研究结论对于完善公司年报文本信息披露监管法规具有重要启示。  相似文献   

9.
本文采用文本分析方法研究了中文年报管理层讨论与分析传递的管理层语调能否提供财务困境预测的增量信息、能否提高预测的准确性以及文本内容的信息价值,主要结论为:(1)管理层语调确实为财务困境预测提供了新的信息,能提高财务困境模型的拟合程度和预测能力;(2)管理层语调是对定量财务数据的重要补充,而且这些信息并没有在市场交易价格中得到充分反映;(3)负面语调比净语调具有更高的信息价值;(4)财经文本情感或语调的分析应以基于相关来源财经文本的情感词词典为基础,而直接引入其他领域成熟词典的效果较差。  相似文献   

10.
石勇  安文录  曲艺 《管理评论》2022,(6):143-152
“智慧检务”建设近些年取得了巨大的进展,但是大部分集中于检察信息化和数据基础设施领域,对检务工作决策支持的关注程度和相关研究成果都很有限。针对这一弱项,围绕检察工作中“对刑事犯罪提起公诉”的核心任务,结合检察官“根据案情基本信息决定以何种罪名起诉”的决策过程,本文运用文本挖掘技术建立起一套检察起诉决策支持系统。该系统主要由文本预处理、特征提取、分类等流程组成,输入是案情描述的文本,输出是对应的起诉罪名。实验结果显示,该系统在多种分类模型下、不同的特征数量下、不同的文本向量表示方法下均能取得较高的准确率,不仅实现了有效的、高精度的起诉决策支持,也提升了案卷分类管理的效率。本文成果是大数据挖掘辅助检务决策领域的率先尝试,是提高检务工作智能化水平的具体实践,丰富了领域研究的同时,相关数据和结论亦可作为该领域应用和实践的基线,供未来参考和借鉴。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号