首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
基于模糊聚类和信息熵的综合评价算法   总被引:2,自引:0,他引:2  
针对目前综合评价技术存在的主旨不相协调、忽略了简洁性与有效性问题,在分析已有算法的基础上,提出了一种基于模糊聚类和信息熵的综合评价算法,该算法有针对性地克服了原有评价算法的缺陷,具有较好的实用性,最后通过实际数据对该算法的有效性进行了验证.  相似文献   

2.
聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异....  相似文献   

3.
基于统计的方法是当前机器翻译领域主流的研究方向之一,其中对齐模板统计翻译模型是效果较好的一个统计模型,而双语词聚类在对齐模板统计模型参数训练中占有十分重要的地位.本研究针对其参数训练的双语词聚类,在原有的非层次聚类基础上,提出了双语层次聚类的算法;另外,又结合2种算法的思想,提出一种新的混合算法.使用信息熵作为评价标准,结果显示混合算法的聚类效果有3.4%~5.0%的改进.  相似文献   

4.
基于信息熵改进的 K-means 动态聚类算法   总被引:1,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

5.
基于信息熵及模糊熵聚类算法的油液监测数据关联性   总被引:2,自引:0,他引:2  
应用信息熵及模糊熵聚类算法对油液监测数据间的关联关系进行考察.根据系统输出的数据较为简化地表征系统内部因素间的相互联系程度,对得到的关联关系进行分级、评价,以便对设备的磨损状况提供可信、可靠的分析手段.通过应用Shannon信息论的互信息熵理论表征数据序列之间的关联性,通过模糊熵理论进行阈值的选取,以标准5函数为隶属函数,对关联数据进行挖掘.实例验证了算法的有效性,并对聚类结果进行了解释.对设备故障的定位与磨损状况的评级划分提出了一种量度手段.  相似文献   

6.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用.  相似文献   

7.
基于蚁群聚类算法的模糊神经网络   总被引:1,自引:0,他引:1  
提出了一种基于蚁群聚类的模糊神经网络算法,神经网络采用RBF网络结点结构,聚类采用二级结构蚁群聚类算法作为一级聚类而模糊C-均值聚类(FCM)用于二级聚类。将上述聚类方法用于模糊神经网络构建中,仿真结果表明具有并行实时性、聚类能力强的特点。  相似文献   

8.
为克服FCM算法对聚类中心初值敏感和易陷入局部搜索等缺点,将选举机制和信息熵引入FCM,仿真实验表明,改善后的算法不仅可以自动选取最合适的聚类数,而且还有效地改善了因FCM初始时随机选择聚类中心导致聚类结果不稳定,易陷入局部极小值的缺点,并提高了FCM算法的收敛速度.  相似文献   

9.
一种基于遗传算法的模糊聚类   总被引:21,自引:0,他引:21  
对模糊c均值聚类算法(FCM算法)进行了讨论,说明FCM算法一般得不到全局最优分类,因此结合FCM算法提出了用遗传算法进行寻优求解,从而将遗传算法用于模糊聚类分析,最后的实例表明,遗传算法在处理多样本、多属性、多类别问题时,是一种有效的方法。  相似文献   

10.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。  相似文献   

11.
0Introduction Withmoreandmorestudyingprojectsapplythedataminingtechnologytointrusiondetection,agreatdealofdataminingalgorithmsforintrusiondetectionhavebeenre alized[1],thetypicalis:associationruleminingalgorithm,frequencysceneruleminingalgorithm,classificationalgo rithm,andclusteringalgorithm.Thefirstthreealgorithmofthosebelongto“thesupervisedstudying”,whichneedatrain ingdatasetofgoodqualityandwithmarking,butitisnoteasyusuallytogetthetrainingdataset[2].However,cluste ringalgorithmis“theunsu…  相似文献   

12.
针对彩铃业务交易记录海量化和客户属性高维化、混合性的特点,提出一种应用模糊信息熵对彩铃客户属性进行约简的方法。以两个地区的营销返回样本为原始数据,结合CART分类器和10折交叉验证,比较由文中方法和经典粗糙集属性约简方法得到的特征数量和分类精度。实验结果表明,文中方法获得了相对较高的平均分类精度(81.36%)和最少的平均特征属性(4.5个),有效地约简了彩铃客户属性并改善了分类能力。  相似文献   

13.
为提高传统协同过滤算法在个性化推荐系统中的大数据处理能力,研究了一种基于模糊聚类的并行推荐算法。在Hadoop平台下首先通过PCA降维和FCM聚类对用户物品评分矩阵进行预处理,采用皮尔逊相关系数计算用户间的相似度,通过得到的聚类簇集合构建最近邻集合,生成基本预测评分。最后实现算法的并行化处理并得到推荐结果。实验结果表明,与基于PCA降维的协同过滤和单机式传统协同过滤算法相比,该算法提高了推荐的准确性和实时性。  相似文献   

14.
文章基于信息熵理论,将模糊聚类评价方法和决策树分类算法联系起来,提出从信息熵角度用决策树分类算法来评价聚类算法结果的有效性,从而确定最佳的聚类个数;并将该方法应用到证券行业客户忠诚度分析模型的建立中.实验结果表明,该方法可以明显提高聚类的效果,并且使得聚类结果的可解释性强,具有良好的实用价值.  相似文献   

15.
针对小浪底水库左坝肩渗漏问题,采用熵权模糊聚类信息流法对采集的14个样本进行分析,以确定渗漏水的补给来源,并结合温度和电导探测、连通试验等方法确定集中渗漏通道。结果表明:1号排水洞3号孔、1号排水洞35号孔、2号排水洞28号顶孔、2号排水洞94号顶孔、4号排水洞28号底孔、30号排水洞D-18号孔、30号排水洞RD-7号孔中的水由浅层库水补给;30号排水洞D-133号孔中的水由深层库水补给;30号排水洞D-194号孔中的水由深层库水、尾水、地下水补给;30号排水洞RD-37号孔中的水由地下水和尾水补给。通过对集中渗漏通道实施灌浆补强、断层封堵等防渗加固措施,各级水位下总排水量均比以前减少,减少幅度为25%~40%,因此熵权模糊聚类信息流法用于判别渗漏水的补给来源是行之有效的。  相似文献   

16.
基于信息熵的符号属性精确赋权聚类方法   总被引:1,自引:1,他引:0  
对符号类型数据聚类时,一些常用算法通常随机选择初始聚类中心,然而随机选择的中心与实际类中心可能存在较大偏差,因此,会导致聚类迭代次数的增加及聚类精度上的不足。提出一种基于信息熵对符号属性进行赋权的新方法,新方法改进了以往提出的对象密度概念及计算方法,从而弥补了以往方法在计算对象密度时没有 区分每个属性在计算密度时的贡献度,从而可能选择密度大的边界点作为聚类中心,影响聚类效果的不足。提出的新方法优化了初始聚类中心的选择,一些高质量的聚类中心被选出用于聚类。最后通过Matlab编程实现新方法的聚类过程。实验显示,新方法聚类的结果在一些指标上要好于已有方法  相似文献   

17.
针对粗糙集中连续属性需要离散化问题进行了研究.根据数据对象的可分辨性原理构造超立方体,在数据空间上对信息表中的连续属性进行整体离散化处理.根据条件属性与决策属性的一致性关系,依照条件属性在粗糙集边界域中的分类能力来确定条件属性的重要性,在此基础上选取重要划分点对信息表中的连续属性进行局部离散化,同时以信息熵作为迭代约束条件.数值示例和实验表明这种整体与局部相结合的离散化方法是有效可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号