首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于高斯混合模型的EM学习算法   总被引:7,自引:0,他引:7  
本文研究了一类基于无监督聚类学习的算法——EM算法的算法实现.EM算法通常用于存在隐含变量时的聚类学习,由于引入了隐含变量,导致算法难以保证收敛和达到极优值.本文通过将该算法应用于高斯混合模型的学习,引入重叠度分析的方法改进EM算法的约束条件,从而能够确保EM算法的正确学习.  相似文献   

2.
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况.  相似文献   

3.
基于高斯混合密度模型的医学图像聚类方法   总被引:2,自引:1,他引:1  
研究了医学图像的聚类问题,提出一种基于高斯混合密度模型的K-EM聚类算法,并将此算法用于人体腹部图像数据,实现肝、肾、脾等主要器官的分类.在算法中,随机选取腹部图像像素数据,用QAIC信息准则确定训练样本的最佳类别数;用K均值聚类算法得到混合模型的初始参数;用期望最大(EM)算法多次迭代建立腹部图像数据的混合密度模型;运用贝叶斯准则,将腹部图像所有像素值划分到混合模型中相应的模型分支,得到每个器官像素值划分的正确率与误判率.试验结果表明,新算法分类的平均正确率高于85%、误判率低于10%,优于K均值算法.  相似文献   

4.
基于聚类分析的网络流量高斯混合模型   总被引:1,自引:0,他引:1  
基于聚类算法对数据对象多个属性综合聚类的特点,研究网络流量的GMM模型及其在数据流尺度上的Log-normal分布。用EM算法研究了具有交互特征的网络流量的分类;通过与K-means算法比较,讨论了EM算法在流量聚类中的适用性;通过平衡和不平衡流量的聚类分析,研究了不同类型流量GMM建模的有效性。研究流量的幂律关系及其在不同尺度间的传递性,用户行为和应用程序特征通过传输层控制协议分解传递到IP层后,在数据包尺度上表现出分形和自相似性,在数据流尺度上表现出Log-normal分布。  相似文献   

5.
针对边界模糊和对比度低的口腔CT图像中牙齿目标区域提取难的问题,提出了一种基于高斯混合模型与K-均值的改进聚类分割算法.该算法首先通过各向异性滤波对图像预处理,实现去噪平滑的同时增强图像的细节;然后利用K-均值完成初始划分,并根据分类后的像素值给出EM算法迭代的初始值,加快算法迭代到最优解,从而大大降低算法迭代次数,有效解决EM算法求解参数时随机选取初值点易导致GMM陷入局部最优解的问题,进而使分割区域完整;最后利用EM算法学习GMM,完成ML分割.实验结果表明:改进方法降低了计算复杂度,对噪声具有较强的鲁棒性,可获得更为理想的分割结果.  相似文献   

6.
博客聚类是处理博客信息的有效方法,提出基于评论修正的博客页面聚类算法.首先分析博客所包含的信息层次结构,然后利用博客页面的通用属性构建博客属性模型,基于博客属性模型对博客页面进行聚类,并且在初次聚类的基础上利用博文的评论对聚类结果进行修正.采用通用的熵和纯净度来衡量聚类结果,根据评论利用方式的不同,设计了两种实验方案:一个实验直接使用评论参与聚类,另一个将评论作为聚类后的修正手段.实验结果对比表明,在大多数情况下,利用评论作为修正手段的聚类效果要优于直接利用评论参与聚类.  相似文献   

7.
针对传统聚类算法存在挖掘效率慢、 准确率低等问题, 提出一种基于最小生成树的多层次k-means聚类算法, 并应用于数据挖掘中. 先分析聚类样本的数据类型, 根据分析结果设计聚类准则函数; 再通过最小生成树对样本数据进行划分, 并选取初始聚类中心, 将样本的数据空间划分为矩形单元, 在矩形单元中对样本对象数据进行计算、 降序和选取, 得到有效的初始聚类中心, 减少数据挖掘时间. 实验结果表明, 与传统算法相比, 该算法可快速、 准确地挖掘数据, 且挖掘效率提升约50%.  相似文献   

8.
目前谱聚类在文本分类、图像分割和信息检索等领域的应用越来越引起研究者的重视,并取得了一定的成果、但是,大多数已有的谱聚类算法需要事先给定聚类数.在k-means算法、EM等聚类方法中也存在相似的问题、在此介绍了一种简单的容易实现的谱聚类算法,可以自动确定合适的聚类数.实验表明本算法结果很好、  相似文献   

9.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

10.
为解决有限混合分布模型的聚类分析中分量密度函数选择问题,通过研究广义多元分析理论,提出了基于椭球等高分布混合模型的聚类算法.首先,利用与正态分布有许多相似性质的椭球等高分布族来构造混合分布模型,并引入标签变量,将基于椭球等高分布混合模型的聚类转化为模型参数估计问题;然后,通过极大似然估计法和EM算法进行模型一般变量参数...  相似文献   

11.
为向负荷预测模型提供准确可靠的相似日训练样本集合,针对现有聚类算法在初始聚类中心选取方面的不足,提出了一种基于数据中心度的改进聚类算法,并搭建集数据筛选、聚类、优化、训练、预测为一体的日最大负荷预测模型.首先,基于各被聚类对象的中心度,选取聚拢效果最好的对象作为第一个聚类中心代入Canopy算法,形成初始聚类中心集合;然后,采用K-means聚类算法,得到不同类别相似日的训练样本;最后,利用PSO-GA-BP神经网络算法搭建日最大负荷预测模型进行预测分析.算例对某地区2011—2012年日最大负荷开展预测分析,结果表明:所提方法在聚类指标与预测指标上均具有一定优越性,具备一定实际工程应用价值.  相似文献   

12.
对未知协议消息序列进行聚类处理是分析协议格式的基础。从字符串匹配的角度出发,利用协议格式字段的连续性,在传统K-均值算法基础上提出一种基于连续特征的未知协议消息聚类算法。首先基于协议格式字段连续性对待测数据集进行粗聚类,提取出K-均值算法的初始聚类中心,再使用消息距离及收敛函数改进的迭代算法对数据进行迭代处理实现消息的进一步聚类。实验表明,提出的新方法与传统K-均值算法相比,在聚类准确度上提升了17.58%,迭代次数上减少了约58.27%,与EM算法、DBSCAN算法相比在聚类准确率与时间上均有明显提升。  相似文献   

13.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

14.
在分析传统的聚类算法优越性和存在不足的基础上,基于Chameleon算法和谱平分法的思想提出了一种新的聚类方法。相比传统聚类算法而言此算法克服了如k—means算法、EM算法等传统聚类算法在聚类不为凸的样本空间时容易陷入局部最优的缺点,能在任意形状的样本空间上聚类,且收敛于全局最优解,并且可以降低噪声和离群点的影响,提高了算法的有效性。在UCI数据集和5个特殊的二维数据点组成的数据集上进行了实验,证明了本方法的有效性。  相似文献   

15.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

16.
针对当前推荐算法存在数据稀疏性、冷启动和缺乏时效性的问题,为提高推荐质量,提出了一种基于模糊聚类和评论时效的推荐算法,并应用于在线点餐系统中。在协同过滤的基础上,充分利用模糊C均值聚类算法确定目标用户邻近用户集,再利用改良的项目相似性计算最近邻居集,并填充用户项目评分矩阵,最后引入用户评论相似度和评论时效预测最终评分。实验结果表明,该算法明显优于传统的推荐方法,能够获得较好的推荐精度。  相似文献   

17.
【目的】在没有先验知识的前提下,采用基于粒子群优化算法(PSO)的加权模糊C-均值(WFCM)聚类算法,从30多万条记录的医疗保险数据中挖掘出疑似医疗保险欺诈的记录。【方法】首先,引用改进的欧式距离、相似性函数以及交叉熵函数并通过PSO算法极小化交叉熵函数,对属性权重进行分析;其次,选取Calinski-Harabasz(CH)有效性指标,展开聚类有效性的研究;然后,基于数据预处理的结果将数据运用于PSO算法,不断更新得到各属性的权重,并运用聚类有效性评价中的CH有效性指标来动态估计最佳聚类个数,提高FCM聚类的速度;最后,将属性权重和最佳聚类数应用于FCM聚类算法,根据隶属度矩阵聚类得到疑似医疗保险欺诈结果。【结果】基于上述研究方法,本研究根据最后的隶属度矩阵来进行聚类分析。【结论】将优化的权重应用于加权FCM聚类算法与聚类有效性评价,既提高了聚类算法的高效性,又避免了主观评价对分类的影响。  相似文献   

18.
为了研究模糊聚类算法在高斯混合模型(GMM)参数获取方面的应用,采用模糊C均值算法(FCM)进行语音特征矢量的聚类,并结合Tabu搜索算法得到全局最优的聚类结果,进一步用EM算法得到GMM模型参数.使用TIMIT数据库中的语音进行测试,开集和闭集说话人辨认实验都表明,该方法获取的GMM参数比普通EM算法获得的GMM模型参数性能更优,能有效降低说话人辨认系统的误识率.  相似文献   

19.
针对传统k-means算法中初始聚类中心选取的随意性对于聚类结果影响较大的问题,提出了基于Leader算法的k-means改进算法——Lk-means算法.该算法有效避免了初始聚类中心选取的边缘化和随意性.实验证明,Lk-means算法的聚类结果更加有效合理.  相似文献   

20.
针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号