首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
文本挖掘研究进展   总被引:12,自引:0,他引:12  
数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.  相似文献   

2.
本文主要介绍几种文本分类算法以及它们的优缺点,然后通过实验数据证明集成算法在垃圾短信过滤中的优势。  相似文献   

3.
张晖  张艳 《科技信息》2007,(30):87-87
基于Web的文本挖掘是文本挖掘的一个重要的组成部分,本文对文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论。  相似文献   

4.
本文首先介绍文本挖掘的定义及一般处理过程,重点探讨了文本分类与分类聚类等文本挖掘的关健技术。  相似文献   

5.
投诉识别系统在保证热点投诉正确分类、提高电信行业的服务质量中起到很重要的作用.由于电信行业的客户投诉有其特殊性,所有的投诉必须在很短的时间内分类完成,从而往往会发生导航分类错误的现象.提出了一套基于文本挖掘的模型,该模型能够智能地将热点投诉分类到正确的投诉导航上去.实验表明:该模型能够有效地进行投诉文本分类.  相似文献   

6.
文本挖掘技术的研究   总被引:3,自引:0,他引:3  
本文对文本挖掘的过程极其关键技术进行了系统的分析,并探讨了其应用趋势。  相似文献   

7.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

8.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

9.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

10.
通过SPSS Clementine智能分析工具中的K-Means方法对民声通道系统原始数据进行聚类研究,发现其中存在的共性问题并进行分析,挖掘群众关注较高的突出问题,为决策者提供有价值的管理策略.  相似文献   

11.
研究了一种基于改进贝叶斯算法的短信分类方法。对中文文本短信,采用文档频度(DF)的特征项提取方法,借助自建短信语料库对改进的贝叶斯分类器进行了实验测试。实验结果表明:改进的分类器可以提高正常短信的通过率,并可以根据新的训练集训练出个性化的分类器,适应短信变化,满足用户的个性化需求,还结合黑白名单过滤机制实现对短信的过滤...  相似文献   

12.
文本挖掘综述   总被引:1,自引:0,他引:1  
杨霞  黄陈英 《科技信息》2009,(33):82-82,99
文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。  相似文献   

13.
以某型装备火控系统为例,将文本分类技术同基于支持向量机的故障诊断方法结合,通过建立故障特征词库、采用布尔模型形成故障向量库,运用SVM算法对该装备火控系统的故障进行了训练评估,并获得了较理想的试验结果,最大识别率达到了70%。通过这种方法进行装备故障诊断,对于装备维修特别是战场抢修有极其重要的意义,使维修人员从繁琐的仪器检查中解脱出来,通过已有的故障库快捷简便地确定故障检测点,实现装备的快速抢修,为抢夺战场主动权创造有利条件。  相似文献   

14.
一种基于改进互信息的文本分类方法   总被引:1,自引:0,他引:1  
用改进的互信息公式进行特征选择,通过三种文本分类方法验证了改进的公式具有较高的准确率、召回率和F1值,从而证明改进的互信息公式的有效性.  相似文献   

15.
认为数据量的巨大和高维、用户交互与先验知识的利用等等是知识发现领域面临的问题和难点 .粗糙集理论是一种具有模糊边界的集合理论 ,它作为研究知识发现的新型工具 ,能严格地处理不精确数据的分类问题 ,被广泛应用于不相容决策表中的规则提取过程中 .针对粗糙集理论中属性约减和属性值约减这两个重要问题进行了研究 ,并介绍了数据集中挖掘分类规则的基本原理 ,同时利用 RS理论中核和核值的概念 ,提出了一个在数据集中发现没有冗余属性的最小归纳依赖关系并简化决策系统的数据挖掘算法 ,并应用一简单的例子说明如何在数据库中发现分类规则 ,实验结果表明此算法可以大大提高系统潜在知识的清晰度  相似文献   

16.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

17.
讨论了对分类规则的挖掘采用基于关联的分类方法.关联分类规则挖掘方法主要包括两大处理步骤:第一步利用分类关联规则挖掘算法挖掘出有关的分类关联规则;第二步就是基于所挖掘出的分类关联规则构造一个分类器.详细介绍了该方法的实现算法和部分数据结构.  相似文献   

18.
一种基于序列挖掘的分类系统框架   总被引:1,自引:0,他引:1  
为了有效地对序列数据进行分类,提出了一种集成分类挖掘和序列模式挖掘技术的分类系统框架(SPACS).先采用一套约束和裁减策略,为每个分类挖掘频繁序列模式,并将其转换为分类序列规则(CSR);再利用平均CSR匹配置信度和一个规则匹配算法构建有效的序列数据分类器.SPACS不需要在提取序列的特征后采用传统方法进行分类,可以直接利用从序列数据中提取出的频繁序列进行分类.实验结果表明,对于序列类型的数据的分类,SPACS比传统的决策树和关联分类方法具有更高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号