期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邵长龙孙统风丁世飞《南京大学学报(自然科学版)》2021,(2):189-196

聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异.... 相似文献

2.

基于模糊聚类和信息熵的综合评价算法 总被引：2，自引：0，他引：2

张运凯王方伟戴敬书黄文艳陈艳红《吉林大学学报(信息科学版)》2004,22(6):643-647

针对目前综合评价技术存在的主旨不相协调、忽略了简洁性与有效性问题,在分析已有算法的基础上,提出了一种基于模糊聚类和信息熵的综合评价算法,该算法有针对性地克服了原有评价算法的缺陷,具有较好的实用性,最后通过实际数据对该算法的有效性进行了验证. 相似文献

3.

基于特征选择和聚类的分类算法

郭凯文潘宏亮侯阿临《吉林大学学报(理学版)》2018,56(2):395-398

针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率. 相似文献

4.

基于信息熵的双语词聚类算法

张振昌《厦门大学学报(自然科学版)》2014,(6):804-809

基于统计的方法是当前机器翻译领域主流的研究方向之一,其中对齐模板统计翻译模型是效果较好的一个统计模型,而双语词聚类在对齐模板统计模型参数训练中占有十分重要的地位.本研究针对其参数训练的双语词聚类,在原有的非层次聚类基础上,提出了双语层次聚类的算法;另外,又结合2种算法的思想,提出一种新的混合算法.使用信息熵作为评价标准,结果显示混合算法的聚类效果有3.4%~5.0%的改进. 相似文献

5.

基于信息熵的模糊聚类新算法研究

苏璇王晓晔王卓《天津理工大学学报》2010,26(5)

本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖. 相似文献

6.

基于信息熵改进的 K-means 动态聚类算法 总被引：3，自引：2，他引：1

杨玉梅《重庆邮电大学学报(自然科学版)》2016,28(2):254-259

初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升. 相似文献

7.

数据挖掘中基于信息熵的自适应聚类时间维度归约

林珠李海威邢建萍陈树敏《广东科技》2012,21(15):212-213

数据归约作为一种数据挖掘中常采用的数据前处理技术,能够有效地提高数据分类的效果,对于时间序列数据,时间维度归约是时序数据挖掘最常用的数据归约技术。以单变量时间序列作为研究对象,提出并实现了一种基于聚类的时间维度归约方法。通过实验表明,该方法能够有效地减少数据维度,有效压缩数据并提高数据挖掘的分类准确率。相似文献

8.

基于相似性特征聚类的加权无监督特征选择算法

余曼李顺勇王改变《贵州师范大学学报(自然科学版)》2021,39(1):49-57

目前存在的无监督特征选择算法中往往会忽略特征与特征之间的关系,从而使得特征选择结果不理想.针对这个问题,提出了基于相似性特征聚类的加权无监督特征选择算法(Weighted unsupervised feature selection algorithm based on similarity feature clust... 相似文献

9.

基于遗传算法的文本聚类特征选择 总被引：3，自引：0，他引：3

张锋樊孝忠许云《华南理工大学学报(自然科学版)》2004,32(Z1):133-136

传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9%,而聚类时间减少了15 s. 相似文献

10.

决策依赖聚类的高维数据特征选择

邓廷权辛丽颖《西南师范大学学报(自然科学版)》2022,(3):16-25

针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗... 相似文献

11.

带信息熵反馈机制的免疫克隆文本聚类算法

范会联仲元昌胡江坤贾年龙《郑州大学学报(自然科学版)》2011,(1):46-49

为了有效提高文本聚类的质量,用聚类过程不断反馈的信息熵改进向量空间模型中特征词权重的计算,构造以文本相似性为基础的抗体-抗原亲和力和抗体浓度计算方法,提出用亲和力和抗体浓度控制的抗体克隆和变异策略寻找聚类中心,并将文本归入与聚类中心相似度最大的类簇.实验表明,该算法可得到聚类质量较高并且稳定性较好的聚类结果. 相似文献

12.

一种基于条件熵的特征选择算法 总被引：1，自引：0，他引：1

渠小洁《太原科技大学学报》2010,31(5)

特征选择是一种处理维数约简的有效方法。以条件熵为特征子集评价条件,采用随机搜索和启发式搜索相结合的搜索策略,设计了一种新的特征选择方法。该方法不仅能够求得经典启发式特征选择方法的选到特征子集,还可以得到一些与其不同的满足条件特征子集,同时在多数情况下可以减少时间消耗。实验研究表明了提出的算法的有效性。相似文献

13.

基于熵权法的过滤式特征选择算法

李占山杨云凯张家晨《东北大学学报(自然科学版)》2022,43(7):921-929

互信息过滤式特征选择算法往往仅局限于互信息这一度量标准.为规避采取单一的互信息标准的局限性,在互信息的基础上引入基于距离度量的算法RReliefF,从而得出更好的过滤式准则.将RReliefF用于分类任务,度量特征与标签的相关性;应用最大互信息系数(maximal information coefficient,MIC)度量特征与特征之间的冗余性、特征与标签的相关性;最后,应用熵权法为MIC和RReliefF进行客观赋权,提出了基于熵权法的过滤式特征选择算法(filtering feature selection algorithm based on entropy weight method, FFSBEWM).在13个数据集上进行对比实验,结果表明,FFSBEWM所选择的特征子集的平均分类准确率和最高分类准确率均优于其他对比算法. 相似文献

14.

基于熵和信息粒度的粗糙集聚类算法

何明冯博琴马兆丰傅向华《西安交通大学学报》2005,39(4):343-346

针对多数聚类算法只能单独处理数值特征数据或类属特征数据，而不能分析具有两种混合属性数据的问题，基于熵和信息粒度提出了粗糙集理论框架下不同粒度划分上的聚类算法．该算法利用相似关系，通过计算每个数据点的熵并选取具有最小熵值的数据点作为聚类中心，将与该聚类中心相似度大于阈值卢的所有数据点聚集形成数字颗粒结构．在整个聚类过程中无需调整每个数据点的熵值，缩短了计算时间，同时利用粗糙集的不可分辨关系形成字符颗粒结构，通过不断调整、合并这两种颗粒结构，实现了具有混合属性特征数据的聚类分析．实验结果比较表明，该算法是有效、可行的，当卢取值为0．8时，算法的聚类有效性最大值可达0．96，该值较同条件下的其他聚类算法要高。相似文献

15.

基于信息熵的TFIDF文本分类特征选择算法研究

陈国松黄大荣《湖北民族学院学报(自然科学版)》2008,26(4)

特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度. 相似文献

16.

一种基于改进信息增益特征选择的最大熵模型文本分类方法

何明《西南师范大学学报(自然科学版)》2019,44(3):113-118

针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的. 相似文献

17.

基于粗糙集和信息熵的入侵检测特征选择方法研究

吴萍姜懿庭《云南民族大学学报(自然科学版)》2011,20(4):292-295

特征选择是从与应用有关的特征集合中选取出满足需要的重要性高的最小特征子集的过程,是入侵检测中的一项重要工作.针对现有的入侵检测系统存在的先验知识较少的问题,利用粗糙集中的知识表达系统来描述入侵检测特征集合,并通过计算各个特征的信息熵来确定其相对重要性,最终选择出精简的特征集合,简化了入侵检测训练集合,减少了检测时间并可以有效的提高入侵分类的准确性. 相似文献

18.

一种改进的互信息特征选取预处理算法 总被引：3，自引：1，他引：3

卢新国林亚平陈治平《湖南大学学报(自然科学版)》2005,32(1):104-107

讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用．在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用．实验结果表明,改进后的算法可以有效地提高文本分类精度。相似文献