首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 390 毫秒
1.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

2.
基于文本表示的特征项权值确定方法研究   总被引:6,自引:2,他引:4  
文本表示中特征项的权值确定方法决定了文本特征的提取,在很大程度上影响了文本分类的准确率,通过系统总结常用的几种特征项权值的确定方法,并逐一比较分析和研究,提出了一种性能较好的确定方法——据位定权函数,经实验验证据位定权函数确实能够有效地提高文本分类的准确性。  相似文献   

3.
针对如何减少关联分类方法中冗余规则,增加FOIL算法的规则数,以提高分类准确率,提出了一种结合关联与FOIL算法的分类方法,并称之为ACFA.首先,以类支持度和自信度为度量提取长度为1和2的规则,其次,利用Apriori算法挖掘出频繁2-项集F2,然后在频繁2-项集F2申挑选满足条件的频繁项建立候选集,最后在候选集上运用FOIL算法来产生分类规则.实验表明算法ACFA不但有效减少了关联分类方法中冗余的规则,并大大增加了FOIL算法的规则数,提高了分类的准确率.  相似文献   

4.
一种文本分类数据挖掘的技术   总被引:7,自引:0,他引:7  
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性.  相似文献   

5.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

6.
文本分类是自然语言处理的重要内容,而有效提取文本全局语义是成功完成分类任务的关键.为了体现卷积神经网络提取特征的非局部重要性,在模型中引入Attention机制并建立了包含4个Attention CNN层的A-CNN文本分类模型.其中,Attention CNN层中普通卷积层用于提取局部特征,Attention机制用于生成非局部相关度特征.最后,使用A-CNN模型分别在情感分析、问题分类、问题答案选择等数据集上进行了实验和对比分析.结果表明:相比于其他对比模型,A-CNN模型完成上述3个文本分类任务时的最高精度分别提高了1.9%、4.3%、0.6%,可见A-CNN模型在文本分类任务中具有较高的精度和较强的通用性.  相似文献   

7.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

8.
提出一种基于深度学习的文本情感分析方法,将整个卷积神经网络的模型作为一种自动学习器,对输入词语的预表达特征进行学习,引入深度学习领域的递归自编码作为输出层情感分类器,实现语义情感信息的深度提取.设置实验对比卷积神经网络和递归自编码模型的参数,找出了实验过程的最佳参数组合,实验对比了CNN、RSC、CNN-RSC三种不同的算法.实验结果表明:基于CNN-RSC的组合优化算法在对文本情感特征的自动学习上有着较好的效果,在准确度和训练时间以及分类性能上均优于其他两种算法.  相似文献   

9.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

10.
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.  相似文献   

11.
懒散关联分类针对每个待分类实例的特征进行分类关联规则的挖掘,通常能取得较高的准确率。然而,由于某些数据集中存在一些质量不好的特征,将影响懒散关联分类的准确率。此外,分类耗时较长是懒散关联分类另一个缺点。针对上述问题,提出了一种基于信息熵的懒散关联分类算法。该算法以信息熵度量属性值的质量,仅选取每个待分类实例中最好的k个属性值,将得到规模较小且与待分类实例紧密相关的训练子集,从中高效挖掘到高质量的规则。实验表明,与懒散关联分类相比,基于信息熵的懒散关联分类方法提高了分类准确率,并极大减少了运行时间。  相似文献   

12.
为了对农村用地进行有效分类,本文选取面向对象的分类方法,利用某农村的无人机航摄影像提取其土地类别信息。首先对无人机获取的原始影像进行预处理;然后对研究区反复进行分割实验,选取最优的分割尺度,在不同层次进行最优尺度地物分割;最后根据地物矢量、光谱、形状等特征差异,对最优分割尺度层上的地物进行最适宜的分类规则的建立,进而在每一层提取土地利用信息。利用单一尺度分割分类进行对比实验,选取734个样本进行精度验证,研究结果表明:多尺度多层次分割分类的总体分类精度可达84.20%,kappa系数为0.806 2;单一尺度分割分类总体精度仅为77.11%,kappa系数为0.721 4。由此可见,本文研究所采用的数据和区域内的类别的分类精度更高。  相似文献   

13.
随着互联网的普及和网上电子文本信息的爆炸式的增加,自然语言处理技术面向动态的、变化的文本显得越来越必要.针对无切分语言的分词处理的主要难点是切分歧义和未知词的处理.基于归纳学习的分词方法,仅利用文本的表层信息,因此具有完全不依赖于某特定语言的优点.通过引入包含上下文信息的消歧处理规则,对基于归纳学习的分词方法进行改进.以归纳学习方法对未知词进行推测,抽出的规则用于歧义切分的消歧处理,提高了对切分歧义的处理精度.通过实验对规则的有效性进行了考察,并给出了改进方法的分词效果.  相似文献   

14.
针对某市公安110接处警文本描述进行案件分类的需求,参考现有文本分类方法在其他行业的应用,搭建了应用于警情描述的文本分类系统.通过论证常见分类网络适用场合及其优缺点,结合对警情数据中案件描述特征的分析,提出了基于改进卷积循环神经网络的模型,该模型优化了关键特征提取过程,弥补了现有模型短文本局部特征提取不足的缺陷.实验表明,该模型的准确率比常见分类模型提升了2%~3%,且能够有效保证数据局部特征的关联性,可以对案件描述所对应的案件类型进行准确分类,从而提高公安接处警平台的自动化效率.  相似文献   

15.
基于灰色关联聚类的负荷特性分类   总被引:1,自引:0,他引:1  
以变电站负荷构成比例为基本特征,以负荷特性之间的灰色关联度作为基本测度指标,把灰色理论应用于负荷特性分类;并定义负荷特性的均值化特征向量,构造灰色关联度矩阵,提出一种基于元件的变电站综合负荷特性的分类方法.对湖南省48个220 KV变电站的负荷特性分类结果表明,该算法简易、快速、有效,分类结果合理,具有广阔的应用前景.  相似文献   

16.
摘要: 机场应急救援工作的规模决策对于抢救生命财产至关重要. 针对目前救援规模决策缺乏合理规则指导的问题, 提出了一种基于满意度控制的数据挖掘方法. 该方法将满意度理论中的选择函数和拒绝函数植入数据挖掘关联规则算法 中,在保持样本完好性的同时识别异样数据,控制挖掘进程,建立有效的机场应急救援辅助决策规则库,用以辅助决策 者作出更为科学合理的决策. 实验结果表明,该算法能挖掘出合理的应急救援规模决策规则,提高挖掘的准确性和效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号