首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。  相似文献   

2.
核聚类算法是一种能够处理样本间差异微弱的有效聚类算法.以粗糙集理论为基础,将基于属性重要度的属性约简算法应用到核聚类算法中,提出一种新的聚类改进算法,由此可以得到高准确率低复杂度的良好结果.该算法在使用核函数对样本优化前,首先用基于属性重要度的约简算法对样本属性进行处理,同时引入信息熵来改进约简算法,从而删除冗余属性得...  相似文献   

3.
针对谱聚类算法在处理较大规模的样本时,在存储空间和计算时间上都存在瓶颈问题,文章分析了目前常见的两种解决方式,即基于稀疏化t近邻的谱聚类和基于Nystr9m矩阵低秩逼近的谱聚类方法.为了进一步提高这两种谱聚类算法的准确度,提出了采取基于信息熵属性赋权的欧式距离来计算样本间的相似度的方法.首先,计算样本各属性的权重;然后,计算样本间的相似度矩阵并应用到稀疏化t近邻的谱聚类和Nystr9m矩阵低秩逼近的谱聚类方法中;最后,在多个数据集上进行了验证.实验结果表明该方法在一些数据集上的聚类精确度要比原来谱聚类算法高,尤其在Pendigits数据集上,基于信息熵赋权的稀疏化t近邻谱聚类比稀疏化t近邻谱聚类方法精确度提高15.11%.  相似文献   

4.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

5.
模糊聚类迭代模型在洪水灾害度划分中应用   总被引:6,自引:0,他引:6  
介绍了陈守煜的模糊聚类迭代模型.利用该模型的计算结果可对聚类样本作进一步的排序.即先求各个类对模糊划分的相对隶属度,以此相对隶属度为权重,根据各聚类样本对各类以相对隶属度加权,求得样本对模糊概念的类别特征值,并根据其大小对聚类样本进行排序.将其应用于"96.7"洪水灾害分析,较清晰地划分出了各受灾地受灾程度的轻重.  相似文献   

6.
模糊C均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性C均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束;并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m0的合理性,讨论了RFCM算法的收敛性。基于Gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

7.
为了提高遥感图像分类精度,提出一种模糊均值聚类(FCM)和最小二乘支持向量机(LSSVM)相融合的遥感图像分类方法(FCM-LSSVM).首先对遥感图像样本进行模糊均值聚类,得到隶属度矩阵,然后根据隶属度矩阵选择遥感图像的训练样本,最后将训练样本输入到最小二乘支持向量机进行学习,并采用粒子群优化最小二乘支持向量机参数,建立遥感图像分类模型.通过仿真实验对算法性能进行测试,结果表明FCM-LSSVM提高了遥感图像分类效率和分类精度.  相似文献   

8.
模糊c均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性c均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束,并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m>0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m>0的合理性,讨论了RFCM算法的收敛性。基于gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

9.
基于聚类的神经网络及其在预测中的应用   总被引:5,自引:0,他引:5  
提出了一种基于聚类的神经网络算法,可以很好解决大样本情况引起的网络结构复杂、收敛性和泛化能力差等神经网络的固有问题.算法采用聚类算法为分类器,进行模式空间分解,以分类后的模式子空间为各样本集合,用神经网络集学习,最后根据重力模型计算检测样本对各样本子集的隶属度,整合各子空间的输出结果.通过实验对比表明该算法精度较高,容错性好.  相似文献   

10.
一种改进的模糊聚类算法   总被引:10,自引:0,他引:10  
针对现有聚类算法在参数输入、停机条件等方面存在诸多人为控制因素的问题,采用信息熵理论使聚类标准客观化,同时结合模糊聚类的思想,以隶属度作为信息熵计算的基础,并采用谱系的方法确定聚类数目,从而改进模糊聚类算法.研究表明,提出的基于信息熵的算法能够比较客观、科学地反映实际聚类情况.  相似文献   

11.
针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类产生的均匀效应,提升了在非平衡数据集上的聚类纯度.  相似文献   

12.
针对疏松砂岩常规物性、压汞实验难度大,岩心标定测井评价孔隙结构精度低的特点,通过随钻核磁共振测井T2谱、铸体薄片分析资料,采用特征参数提取、主成分分析、高斯混合聚类算法,对研究区储层孔隙结构进行分类。研究结果表明:随钻核磁共振T2谱中能够提取表征孔隙连通性、大小及分布的13个特征参数,经主成分分析、高斯混合聚类算法处理解释后,研究区储层孔隙结构分为Ⅰ—Ⅴ共五类,T2谱逐渐向左偏移,小孔隙占比逐渐增大,岩性从粗砂岩过渡至细-中砂岩,孔隙类型从粒间孔过渡至粒间溶孔,孔隙结构逐渐变差。  相似文献   

13.
基于改进FCM算法的SAR图像分类   总被引:1,自引:0,他引:1  
目的改进模糊C-均值FCM算法,并对SAR图像进行粗、细分类。方法对FCM算法从初始聚类中心、隶属度约束条件两个方面进行改进,并提出对SAR图像的粗、细分类。首先利用改进的FCM算法对图像进行聚类,然后在隶属度矩阵中设定阈值,对小于阈值的像素块进行进一步细分类。结果得到并验证了改进的FCM算法,该算法对图像进行分类的分类精度比传统的FCM算法要高。结论本算法既可以保持较高的精确度,又可保证较快的计算速度。  相似文献   

14.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

15.
【目的】在没有先验知识的前提下,采用基于粒子群优化算法(PSO)的加权模糊C-均值(WFCM)聚类算法,从30多万条记录的医疗保险数据中挖掘出疑似医疗保险欺诈的记录。【方法】首先,引用改进的欧式距离、相似性函数以及交叉熵函数并通过PSO算法极小化交叉熵函数,对属性权重进行分析;其次,选取Calinski-Harabasz(CH)有效性指标,展开聚类有效性的研究;然后,基于数据预处理的结果将数据运用于PSO算法,不断更新得到各属性的权重,并运用聚类有效性评价中的CH有效性指标来动态估计最佳聚类个数,提高FCM聚类的速度;最后,将属性权重和最佳聚类数应用于FCM聚类算法,根据隶属度矩阵聚类得到疑似医疗保险欺诈结果。【结果】基于上述研究方法,本研究根据最后的隶属度矩阵来进行聚类分析。【结论】将优化的权重应用于加权FCM聚类算法与聚类有效性评价,既提高了聚类算法的高效性,又避免了主观评价对分类的影响。  相似文献   

16.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

17.
文章基于信息熵理论,将模糊聚类评价方法和决策树分类算法联系起来,提出从信息熵角度用决策树分类算法来评价聚类算法结果的有效性,从而确定最佳的聚类个数;并将该方法应用到证券行业客户忠诚度分析模型的建立中.实验结果表明,该方法可以明显提高聚类的效果,并且使得聚类结果的可解释性强,具有良好的实用价值.  相似文献   

18.
为了提高对未知样本的使用率,充分发挥出半监督聚类算法的优势,ISFCA算法将约束项引入到竞争聚类算法(CA算法)的目标函数中。但在ISFCA算法的隶属度函数中,存在迭代的非必要信息,增加了算法的复杂度。改进了ISFCA算法的隶属度函数,提取出迭代的必要项uCA″rs和非必要项uCA′rs,从而简化隶属度迭代计算过程,使样本的聚类更加合理。实验结果表明,优化后的ISFCA算法对阀门的故障诊断是行之有效的。  相似文献   

19.
改进模糊聚类算法及其在入侵检测中的应用   总被引:1,自引:0,他引:1  
针对将数据集隶属度概率和为1的条件用于模糊性事件时,影响聚类的正确率的情况,在不确定理论的基础上,研究了数据隶属度问题,提出一种新的基于隶属关系不确定的可能性改进模糊聚类算法.该算法在迭代过程中将聚类的可能隶属度与不确定性隶属度引入到目标函数中,使得样本中的元素不局限于仅属于一个聚类,与现有的聚类算法相比具有更好的聚类结果.通过在KDDCUP99数据集上实验,验证了该算法在入侵检测中的检测率为95.8%, 分别高于K-均值算法的检测率(60.4%)和FCM算法的检测率(64.6%).  相似文献   

20.
特征选择是机器学习和模式识别领域中的一个重要问题.本文提出一种非监督的特征选择算法,称为基于密度聚类和样本加权信息熵的特征选择算法(DCWIE).不同于传统的基于信息熵的特征选择算法,DCWIE使用一种加权的信息熵计算方法,增加对分类贡献大的样本的权值,并通过与聚类结合,实现无监督学习.实验结果表明了本文算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号