首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
徐向阳  司智勇 《河南科学》2007,25(4):644-647
聚类是当今数据挖掘领域中最为流行的方法之一,已广泛应用于统计领域、数据库领域、人工智能领域等.着重论述了把K-均值聚类算法应用在关系数据库磁盘文件中的一种思想,允许K-均值方法对磁盘的大数据集进行聚集.  相似文献   

2.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

3.
基于K-均值算法的植物彩色图像分割   总被引:1,自引:0,他引:1  
图像的分割实质是将图像中的像素点依据对象的不同分为不同的类;应用经典的聚类算法即K-均值算法对植物彩色图像进行分割,实验结果表明:经该算法处理后能够将图像中的对象与背景分离开,并取得了较好的图像分割效果,拓宽了聚类图像分割算法应用的新领域。  相似文献   

4.
图像的分割实质是将图像中的像素点依据对象的不同分为不同的类;应用经典的聚类算法即K-均值算法对植物彩色图像进行分割,实验结果表明:经该算法处理后能够将图像中的对象与背景分离开,并取得了较好的图像分割效果,拓宽了聚类图像分割算法应用的新领域。  相似文献   

5.
基于K-均值算法的数字图像水印技术   总被引:3,自引:0,他引:3       下载免费PDF全文
首先利用K-均值聚类算法对图像进行分类,在考虑图像局部特性的情况下,利用像素点与邻域像素的关系嵌入水印,并且在图像的多个区域同时嵌入相同的水印,提取时无需原图.实验结果表明,该方法是一种有较好鲁棒性的空域数字水印方案.  相似文献   

6.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

7.
基于主元神经网络和K-均值的道路识别算法   总被引:6,自引:0,他引:6  
为了提高道路识别算法的鲁棒性和自适应性,提出了基于局部统计特征和主元分析的道路识别算法.该方法用广义Hebb学习规则训练主元神经网络权值,然后将局部统计特征和图像像素值输入主元神经网络得到图像特征矢量,最后用K-均值分类器对该矢量进行分类,通过参考区域识别道路.仿真结果表明,该算法对于光照变化剧烈和阴影遮挡的道路图片均有较好的识别效果,以及较好的鲁棒性和自适应性.  相似文献   

8.
通过对模糊聚类K-均值算法进行分析,针对隶属度归一可能引起结果偏差,对隶属度进行了改进,并进行了实验比较,验证了改进的有效性.  相似文献   

9.
提出的基于距离浓度的K-均值聚类算法把聚类的数据对象视为抗原,聚类中心看作是免疫系统中的抗体,聚类过程表示为免疫系统不断产生抗体,识别抗原,最后产生出可以捕获抗原的最佳抗体过程.定义了抗体浓度和亲和度,使得抗体之间的距离越大,其距离浓度越小,反之则浓度越大,从而提高了算法的搜索效率.设计了抗体的期望繁殖率计算方法和克隆变异方法.仿真结果表明:该算法不仅克服了传统的K-均值聚类算法易陷入局部极小值的缺点,而且避免了对初始化选值敏感性的问题,同时也有较快的收敛速度.  相似文献   

10.
王庆飞 《科技信息》2007,(27):196-196,184
本文对模糊聚类K-均值算法进行了分析,针对隶属度归一可能引起结果偏差,对隶属度进行了改进,并进行了实验比较,验证了改进的有效性。  相似文献   

11.
聚类分析是模式识别的一个重要分支,以核心点和k-均值算法为基础,提出了一种基于参考点的快速k-均值算法;本算法以参考点作为第一个初始聚类中心,剩余初始聚类中心在核心点中选取,使得初始聚类中心能更好的反映模式样本集的几何特征,并且能减少迭代次数.  相似文献   

12.
基于改进GA的K-均值聚类算法   总被引:3,自引:0,他引:3  
利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但容易出现局部早熟现象.为了克服以上缺点,借助免疫机制的优点,将免疫原理的选择操作机制引入遗传算法中,提出基于改进遗传的K-均值聚类算法,该方法结合K-均值算法的高效性和改进遗传算法的全局优化能力,较好地解决了聚类中心优化问题.试验结果表明,本算法能够有效改善聚类质量.  相似文献   

13.
针对基于粗糙熵的图像分割算法不能满足复杂图像的多类目标提取的需要,本文先利用K-均值聚类算法对图像进行区域分割,再利用基于粗糙熵的方法对分割结果进行目标提取,从而达到多阈值分割的目的。通过对遥感图像进行分割处理,证明了改进后算法的有效性。  相似文献   

14.
针对K-均值聚类算法存在的不足,提出了一种新的整合粒子群优化算法(PSO)和K-均值算法的聚类算法.在新算法中,首先结合使用粒子群优化算法和K-均值算法搜索全局最优解的位置,然后再用K-均值算法在全局最优解附近的局部空间内快速寻找最优聚类中心.通过对4个数据集的实验测试,将此算法与K-均值算法、基于粒子群的K-均值算法进行了比较.实验结果表明,新算法的聚类质量比后两个算法更优.  相似文献   

15.
为快速有效地确定聚类中心,提出一种基于距离阈值的自适应K-均值聚类算法.首先确定合理的距离阈值,其次根据距离阈值确定初始聚类中心位置及个数,最后对位置相近的聚类中心簇进行合并,获得新的聚类中心位置及个数.结果表明,该方法可以自动确定k值及中心位置,有效避免将离群点错误聚类,从而改善了聚类效果.  相似文献   

16.
基于SOFM网络的改进K-均值聚类算法   总被引:1,自引:0,他引:1  
针对传统的K-均值聚类算法中随机选取初始聚类中心的缺陷,提出一种改进的K-均值聚类算法,利用自组织特征映射网络(SOFM)自动获得初始聚类中心.实验结果表明,改进的K-均值聚类算法能有效改善聚类性能,提高聚类的准确率.  相似文献   

17.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

18.
一种新的确定K-均值算法初始聚类中心的方法   总被引:4,自引:0,他引:4  
针对传统的K-均值算法聚类时初始聚类中心难以确定的缺点,利用超立方体技术,并依据同类样本中多数样本具有类似的子向量的特点,将落入同一超立方体的样本认为是一类。然后以这些样本的均值作为初始聚类的中心,实现了聚类中心的确定。通过仿真实验和应用于沙尘暴和非沙尘暴样本的分类,验证了此方法的有效性。  相似文献   

19.
基于改进K-均值聚类的图像分割算法研究   总被引:3,自引:0,他引:3  
为了实现彩色图像的准确分割,研究了在HLS颜色空间中基于优化初始中心的加权K-均值彩色图像聚类算法.首先对大样本的目标颜色进行数理统计,获取优化的初始聚类中心,从而实现准确分类和避免K-均值容易陷入局部最优的问题;然后在HLS颜色空间中引入加权欧氏距离来度量对象间的相关性,通过调整系数使对象不同的颜色属性内在特征得以充分利用.实验证明,该算法在保持K-均值聚类简洁、收敛速度快的同时能产生更好的聚类效果,实现彩色图像的快速准确分割.  相似文献   

20.
非线性人脸识别技术已经在技术上得到了较大的进步,数据集大小对识别方法的影响成为研究热点.针对大型数据集对线性和非线性入脸识别方法有何种不同的影响等问题,先后进行了类内变化对识别方法的影响和人数对识别方法的影响的一系列实验和讨论.研究结果表明随着人数的增加,线性方法的错误识别率呈线性增长,而非线性技术的误判率基本上保持不变化.在人数增多的情况下,识别率却产生降低的情况.并指出在研究大型数据集时,非线性方法具有一定的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号