首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于优化的文档频和粗糙集的特征选择方法   总被引:3,自引:2,他引:1  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择方法.该综合方法首先使用基于最小词频的文档频方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.  相似文献   

2.
针对KNN算法在中文文本分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出改进的基于中心向量KNN算法.算法首先引入基于密度的思想对训练样本进行调整,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.实验结果表明,该算法在不损失精确度的情况下,提高了分类实时性.  相似文献   

3.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

4.
KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率.  相似文献   

5.
针对传统粗糙集理论难以处理数值型数据的特点,提出基于邻域熵的决策表特征约简方法.该方法通过引入邻域关系进行信息粒化,定义邻域熵概念,用来度量数值型数据的不确定性,证明邻域熵的单调性原理,提出基于邻域熵与分类精度加权的特征重要度概念,基于邻域熵单调性原理设计了两种启发式特征约简算法.理论分析与实例表明该方法是有效可行的.  相似文献   

6.
在测试代价敏感决策系统中,测试代价敏感属性约简方法是一种寻找测试代价尽量小的属性集的有效方法.但是,约简后决策系统只保留了简洁完整的信息,其所构造的分类器精度会有所降低.假设我们拥有有限但多于最小测试代价的资源,那么我们可以充分利用这些资源来获得更高质量的分类器.本文针对这种情况做了以下两个工作:1)我们在最小测试代价约筒的基础上添加好属性,寻找一个更好的属性集.2)提出了一种改进的决策树算法,提高分类器质量.该算法选择一些当前最好的属性值来构建结点,这些属性值能够覆盖当前相应的训练集.实验表明:1)改进的决策树算法能够获得比ID3更高的分类准确度;2)与最小测试代价约简的分类器相比,在最小测试代价约筒的基础上添加一些的好属性,可以获得更高质量的分类器;3)该方法在减少测试代价开销的同时,保证了分类器的质量.  相似文献   

7.
针对统计方法不能从语义理解的角度进行文本分类的问题,提出了利用概念层次网络概念知识进行文本分类的方法,包括两部分:依据概念进行特征选取以及根据类别关联度分类. 在特征选取时,通过计算概念与类别的区分度挖掘出类别核心概念,并采用类别核心概念对特征项进行精选. 依据类别核心概念相关的类别语义信息,提出了文档与类别关联度的计算方法,并根据类别关联度来判断文本类别. 实验表明,该方法可有效降低特征空间维数,在提高分类效率的同时保证了分类效果,F1值略有提高. 与SVM、KNN和Bayes分类器对比,当特征项数目较少时,该方法的F1值明显高于其他3种方法,综合分类效果与SVM相当,优于KNN和Bayes.  相似文献   

8.
提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用DML方法为不同类别的文本学习马氏距离矩阵,从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上,利用常用的KNN及SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明,该方法提高了文本分类的准确率,并且在不同的隐含主题数目参数下能体现较好的稳定性.  相似文献   

9.
属性约简是粗糙集理论的热点研究内容之一,从信息论出发,提出一种新的信息熵定义.约简算法从条件信息熵出发,迭代选择属性重要性最大的属性,得到信息系统的约简.在此基础上,构造基于条件信息熵的不完备信息系统的动态属性约简算法.在删除单个对象的情况下,新算法通过新的数据集有无删除对象的不可区分对象来判断是否更新原有约简.通过实例说明算法的有效性和可行性.  相似文献   

10.
文本分类规则的提取和优化是衡量文本分类系统适应性能和分类能力的主要指标.在基于粗糙集和模糊聚类理论的文本分类系统中,结合粗集理论及不完备信息系统理论,提出了分类规则的提取和优化方法,通过实验和分析,产生用户满意的约简规则,从而能够快捷迅速地指导新文本的分类,提高系统的适应性能和分类能力.  相似文献   

11.
基于广义粗糙集的属性约简   总被引:1,自引:0,他引:1  
目前,人们对广义粗糙集的研究主要集中在集合的近似计算上,而真正利用广义粗糙集进行属性约简的研究还很少见.基于广义粗糙集理论研究了信息系统中属性约简的问题.首先定义了关系信息系统及其属性约简的概念.然后给出了属性约简的判定定理和辨识矩阵并详细地研究了属性约简的基本性质.最后给出了计算信息系统中属性的所有约简的一般方法.  相似文献   

12.
随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。  相似文献   

13.
基于数据挖掘与机器学习的蛋白质疏水性分析的研究   总被引:1,自引:0,他引:1  
蛋白质的疏水性对蛋白质的稳定性、构象和蛋白质功能具有重要意义,通过数据挖掘中的机器学习算法实现了将一个数据集中已知疏水性的多个蛋白质样本数据,分配给具有特征值的各个目标类.将这些已知其特定类归属的数据作为KNN,LR,决策树,SVM四类分类器的训练集,利用这些已知数据训练后的分类器来处理未知疏水性的蛋白质数据,最终判断该数据的分类.该算法对蛋白质疏水性的预测,其准确率可达90%以上.  相似文献   

14.
基于相似关系的变精度粗糙集的数据约简   总被引:1,自引:0,他引:1  
基于最大相似类的变精度粗糙集模型.此模型把变精度粗糙集的基础由等价关系拓展到条件更弱的相似关系,更好地利用数据间的相关信息,扩大了粗糙集理论的应用范围.讨论了相似变精度粗糙集的性质与属性约简,举例说明了相似的变精度粗糙集在大学生体质检测数据约简中的应用.  相似文献   

15.
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集成算法. 该算法利用频繁模式挖掘的原理,将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储分类结果,然后从中挖掘频繁基分类器组成最终的集成分类器,达到选择性集成的目的. 实验结果表明,与集成分类算法Bagging、AdaBoost、WAVE 和RFW 相比,该算法减小了集成分类器的规模,提高了集成分类器的分类精度和分类效率.  相似文献   

16.
针对现有Web新闻文本分类方法准确率低且不能适应文本类型变化的问题,提出一种基于进化模糊规则的Web新闻文本挖掘和分类方法.首先,对每篇Web文本进行术语提取,并利用词频-逆向文档频率(TF-IDF)算法过滤掉一些具有较低描述能力的术语.然后,基于计算收集到的新的新闻文本内容与类别之间的余弦距离,利用eClass0分类器创建和更新模糊规则的数量和属性.最后,根据模糊规则推理和余弦距离进行文本分类.实验结果表明,该方法具有较高的正确分类率,且能够自适应Web新闻文本类别的变化.  相似文献   

17.
为了研究可变多粒度粗糙集的粒度约简,首先,提出一个适合各种多粒度粗糙集模型的粒度矩阵定义,围绕粒度矩阵,研究多粒度粗糙集模型的相关理论.其次,定义衡量粒度重要性的计算公式,通过计算每个粒度的重要性选择粒度,并结合粒度矩阵,设计了可变多粒度粗糙集的下近似分布粒度约简算法.最后通过实例和实验验证了粒度约简算法的有效性.  相似文献   

18.
在覆盖粗糙集的模型下,结合覆盖约简的理论,提出相对约简的概念并讨论其约简性质,指出该相对约简算法能够保持覆盖粗糙集的隶属度不变性,通过实例说明相对约简与William所提出的绝对约简之间的区别,丰富了覆盖粗糙集的约简理论.  相似文献   

19.
针对传统局部离群数据检测算法时间复杂度高、参数鲁棒性差的问题,在基于连接的异常因子(Connectivity based outlier factor,COF)算法的基础上,提出了一种基于聚类和密度的局部离群数据检测算法。利用聚类方法从原始数据集中筛选出候选离群数据集,来降低算法的时间复杂度;在进行数据对象之间距离计算时,引入信息熵的概念确定数据对象的离群属性,以提高算法的检测准确率。确定数据集的离群属性后,采用新的局部链接离群因子(Local connectivity based outlier factor,LCOF)度量候选离群数据集中数据的离群程度。此算法在保证检测准确率的前提下,降低了时间复杂度和检测准确率对参数的依懒性。仿真结果证明了所提方法的有效性和可行性。  相似文献   

20.
ID3算法在分类数据挖掘中应用广泛,但其在对大规模训练样本集进行挖掘时,占用主存空间较大,且执行效率不高.运用属性约简和分组计数方法对训练样本集进行数据缩减,得到数据规模较小的新训练样本集,然后再运用ID3算法对新训练样本集进行分类挖掘.整个执行过程全部使用现代数据库技术和存储过程编程加以实现.实验表明,通过改进设计提高了ID3算法的执行效率,增强了算法的扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号