共查询到19条相似文献,搜索用时 78 毫秒
1.
为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of the squared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。 相似文献
2.
聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算法仅仅关注簇内对象的直接共现,忽略了簇与簇之间的关系.针对这两个问题,提出一种基于簇间连接的元聚类集成算法,首先根据Jaccard相似度构造一个簇相似度矩阵,然后利用连接三元组细化这个相似度矩阵,最后通过图划分和成员分配得到最后的结果 .理论分析和实验测试表明,提出的算法不仅能产生较好的聚类结果,而且受聚类集成规模的影响较小. 相似文献
3.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度. 相似文献
4.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势. 相似文献
5.
针对类簇中类间依赖关系以及类间消息交互产生的错误而导致测试冗余和测试遗漏的问题,提出一种类间依赖集约简的类簇测试用例生成算法。形式化定义了类间继承依赖、聚集依赖和关联依赖这3种依赖关系,建立类簇测试模型。定义类簇模式和用户(领域专家)解释集,并在用户解释集中依据每一个类对象的若干实例广义相等建立等价类,得出用户解释集幂集的1个子集即匹配划分集。据匹配消去算法求出类的最大匹配集,证明该集合就是所求类的最大非平凡非依赖集;提出一种交互差组合约简算法,计算类的最大非平凡非依赖集的补集,约简得到类的最小交叠集,并证明其就是类的最小非平凡依赖集,即类的组合测试用例;对其中每一个类的组合元素进行组合测试,并与其余类交互测试,得出类的交互测试序列。 相似文献
6.
利用一种新的距离测度将Dave的广义噪声聚类(GNC)扩展成非欧氏距离的广义噪声聚类(NGNC).模糊C-均值聚类(FCM)和广义噪声聚类都是基于欧氏距离的模型,与它们不同之处在于NGNC是基于非欧氏距离的模型,建立在鲁棒统计观点和势函数基础上,这种非欧氏距离比欧氏距离更加鲁棒,因此NGNC算法比GNC算法更加鲁棒.并且,建立在新的距离测度上的NGNC在处理噪声和野值方面比GNC和FCM更好.实验结果表明了NGNC的良好特性. 相似文献
7.
基于集群路由协议的核心实际上是簇头(CH)选择的过程,该过程要求能量消耗能够均匀分布在每个传感器节点上,以求延长传感器网络的生命周期.提出了一种新的分布式簇头选择算法(LEACH-DS),将从传感器到基站的距离作为关键参数考虑其中,以最优地均衡消耗在每个传感器上的能量.仿真结果表明,对比原LEACH算法,新算法的网络生存周期要比原LEACH的网络生存周期有效提高10 %,尤其是在节点到基站距离较远情况下,有更好的实际和应用价值. 相似文献
8.
针对来自不同用户的Web浏览序列往往长短不一的问题,引入编辑距离用于计算浏览序列之间的不相似性。运用含两个阈值的顺序聚类算法对Web浏览模式进行分析,无需事先指定聚类的数量,降低了对浏览序列参与聚类的顺序的依赖性。数据来源于真实数据的仿真实验证明了方法的有效性和灵活性。 相似文献
9.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度. 相似文献
10.
空气质量与人们的身体健康息息相关,分析影响空气质量的污染物是十分重要的工作。本文采用类间距离的序贯logistic多分类方法对成都市2019年5月至2020年4月的空气质量数据进行分析,该方法基于类间距离,把多分类问题转化为多个二分类问题,再基于序贯的原理使用二分类logistic,最后利用逐步回归后的正确率来分析影响空气质量的污染物。实验结果表明,PM2.5,PM10,NO2,O3这4类污染物的对成都市空气质量综合影响力最大,政府应该加强对这几类污染物的联合监控并制定相应的政策来减少污染物的排放。 相似文献
11.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果. 相似文献
12.
针对基于图像边界Hausdofff距离场的图像配准方法存在的问题,提出一种基于最近点拟引力场的图像配准方法:假定参考图像边界点形成最近点拟引力标量场,用浮动图像边界点在该引力场中受力的均值作为相似度函数.该方法弱化了浮动图像中多余边界的作用,提高了算法精度,降低了误配率,解决了浮动图像中存在多余边界情况下的配准问题. 相似文献
13.
14.
15.
提出了随机分配的质点之间距离分布的概念,给出了最近距离分布公式,得到了最近距离和k次距离分布的众数,矩及质点空间密度D的充分统计量和极大似然估计. 相似文献
16.
一种基于语义距离的高效文本聚类算法 总被引:6,自引:0,他引:6
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。 相似文献
17.
18.
基于改进K-均值聚类的图像分割算法研究 总被引:3,自引:0,他引:3
为了实现彩色图像的准确分割,研究了在HLS颜色空间中基于优化初始中心的加权K-均值彩色图像聚类算法.首先对大样本的目标颜色进行数理统计,获取优化的初始聚类中心,从而实现准确分类和避免K-均值容易陷入局部最优的问题;然后在HLS颜色空间中引入加权欧氏距离来度量对象间的相关性,通过调整系数使对象不同的颜色属性内在特征得以充分利用.实验证明,该算法在保持K-均值聚类简洁、收敛速度快的同时能产生更好的聚类效果,实现彩色图像的快速准确分割. 相似文献
19.
针对一致聚类算法中聚类数目判断不准确、聚类速度慢等问题,通过集成复杂网络中的Newman贪婪算法与谱聚类算法,提出了一种新的基于Minkowski距离的一致聚类算法.该算法利用Minkowski距离刻画样本间的相似度,根据随机游走策略,结合不同数据的特征值分布分析方法进行聚类,实现聚类数目的自动识别.实验仿真说明算法具有较少的运算时间及较高的聚类精度.结合实际铜矿泡沫浮选过程特点,将该算法应用于浮选工况分类,进一步验证了算法的有效性. 相似文献