首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

2.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

3.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

4.
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.  相似文献   

5.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

6.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

7.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分.  相似文献   

8.
模糊c-均值聚类(FCM)的算法是在硬c-均值算法(HCM)发展而来的,虽然改进了硬c-均值算法的聚类效果,但带来了时间复杂度的增加.提出了一种基于协议分析分类的并行入侵检测模型,根据协议分析将大的数据集进行分类,构成不同的数据集,先对各个数据集进行FCM聚类,然后对每个FCM聚类的结果再次进行FCM聚类,构成并行处理系统.采用协议分析技术结合高速数据包捕捉、协议解析等技术来进行分布式入侵检测,可以提高入侵检测的速度.  相似文献   

9.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

10.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

11.
将模糊协方差距离测度引入到竞争学习型神经网络的参数控制中,采用批处理的网络学习方式消除数据样本顺序对网络权重调整的影响,通过淘汰及合并数据集的冗余类实现对未知类别数、多种分布型数据的自适应聚类.实验表明,新网络对数据集的分布形式有较强的鲁棒性,并能正确确定数据集的类别数.  相似文献   

12.
应用DLA模型模拟钢中夹杂物集团凝聚   总被引:10,自引:0,他引:10  
为探索钢水中大量粒子的凝聚过程,应用分形理论的DLA模型,对粒子集团凝聚行为进行了模拟研究. 结果表明,模拟得到的凝聚体与钢中簇状类型夹杂物的形状相似. 根据分形理论可以认为它们的凝聚过程遵守同一规则. 大量粒子凝聚时先是各自凝聚成小集团,然后再合并成大集团. 形成相等尺寸的粒子集团所需时间不同,初始条件相同形成的粒子集团形状不同. 粒子凝聚速度随其移动步长和粒子浓度增大而加快,夹杂物粒子平均移动步长主要受钢水粘度和粒子尺寸影响. 粒子集团大小分布随凝聚时间和粒子平均移动步长而变化.  相似文献   

13.
推广了Lakhtakia 和Berndt等的工作,分析了分形(自相似)序列的生成规则,给出了二次高斯和所生成的分形序列的标度及维数.利用逃逸时间算法,构造了广义高斯和的Mandelbrot-Julia集(M-J集),并从理论上分析了M-J集的周期性和结构特征.结果表明:M-J集由许多螺旋状的花束构成,这种结构在不同水平上嵌套出现,体现了明显的自相似分形特性;随指数值增大,M-J集中的精细花瓣结构增多并趋于复杂;J集在x轴方向上具有周期性.本研究成果有助于理解广义高斯和的动力学性?  相似文献   

14.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.  相似文献   

15.
The study of fractal analysis over the local fields as underline spaces is very important since it can motivate new approaches and new ideas, and discover new techniques in the study of fractals. To study fractal sets in a local field K, in this paper, we define several kinds of fractal measures and dimensions of subsets in K. Some typical fractal sets in K are constructed. We also give out the Hausdorff dimensions and measures, Box-counting dimensions and Packing dimensions, and stress that there exist differences between fractal analysis on local fields and Euclidean spaces. Consequently, the theoretical foundation of fractal analysis on local fields is established.  相似文献   

16.
模拟不同沉积速率下超薄膜多中心生长过程。结果显示:随着沉积率的降低,团簇数减少,团簇的平均分形维数增加。在团簇生长期间,当沉积率保持不变时,团簇的内部粒子在聚集之前比其边缘粒子经历更长时间的台面扩散。团簇不同部分的粒子的扩散时间分布能用多重分形谱来描述,沉积率越低,多重分形谱越宽。  相似文献   

17.
本文给出了两个分形的定义,并且证明了它们对应的格子分形上的随机游动是常返的。  相似文献   

18.
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。  相似文献   

19.
提出了一种新的聚类算法PMM,使用概率分析和密度直方图法确定密度阈值,应用多密度阈值对数据空间进行滤波以消除不相关数据的干扰,使用数学形态学理论发现聚类簇,提高了聚类的准确性,按照聚类的特点实现了相关形态学操作的快速算法,提高了运算效率.实验表明PMM的计算复杂度与数据量呈线性关系,能够发现任意形状的聚类簇,对噪声不敏感,并能区分密度不同的聚类簇.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号