首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

2.
针对聚类算法的聚类中心重复性和无法对点云聚类的问题,提出了融合高斯核及指数函数的聚类中心均匀化的点云聚类方法,以优化聚类中心的均匀化分布,实现点云的均匀化聚类。首先,根据高斯核函数及密度指数函数确定局部密度,再依据局部密度的大小确定距离参数。其次,依据局部密度和距离参数的乘积确定聚类中心,同时消除聚类中心的邻近化,使得聚类中心更加均匀分布于整个数据集中。最后,利用数据点到聚类中心距离逐个确定每个数据的聚类归属,并合并邻近聚类实现点云目标物的提取。将该算法与常规的基于密度峰值的聚类算法(clustering function based on density peak, CFDP)、K-means聚类算法、具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)进行比较,该文所提方法可以对教室内3排椅子实现100%的提取。与相对密度关系的峰值聚类(density peak clustering, DPC)算法及深度学习方法相比,所提方法对不同分辨率目标物点云的提取精度均为96.7%...  相似文献   

3.
针对聚类算法的聚类中心重复性和无法对点云聚类的问题,提出了融合高斯核及指数函数的聚类中心均匀化的点云聚类方法,以优化聚类中心的均匀化分布,实现点云的均匀化聚类。首先,根据高斯核函数及密度指数函数确定局部密度,再依据局部密度的大小确定距离参数。其次,依据局部密度和距离参数的乘积确定聚类中心,同时消除聚类中心的邻近化,使得聚类中心更加均匀分布于整个数据集中。最后,利用数据点到聚类中心距离逐个确定每个数据的聚类归属,并合并邻近聚类实现点云目标物的提取。将该算法与常规的基于密度峰值的聚类算法(clustering function based on density peak,CFDP)、K-means聚类算法、具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,DBSCAN)进行比较,该文所提方法可以对教室内3排椅子实现100%的提取。与相对密度关系的峰值聚类(density peak clustering,DPC)算法及深度学习方法相比,所提方法对不同分辨率目标物点云的提取精度均为96.7%,在计算效率和精度方面均优于其他两种方法。  相似文献   

4.
图像分割技术在PCB自动光学检测中应用广泛。 K-means聚类算法简单有效,能实现PCB灰度图像的自动分割。然而,随机选取的初始聚类中心易导致K-means算法最终找到的是局部最优值,对PCB图像分割效果有一定影响。引入PSO算法的群智能搜索策略,提出一种新的寻找聚类中心的算法。实验表明,在PCB图像分割中使用该算法可防止陷入局部最优值。  相似文献   

5.
提出了一种基于超像素分割的结果进行聚类来检测复制粘贴篡改区域的方法.常规K-means等点聚类方法是直接对点进行聚类分析,而该方法则是将若干随机种子置于图像中,借助于超像素分割方法进行区域分割,随后获得包含预先匹配特征点的区域.所提算法以此区域内匹配特征点的数目作为衡量标准,判定区域内的匹配特征点是否为有效特征点.当匹配点的数目到达某个阈值时则将子区域内的点聚为一类,这样聚类的结果更加贴近图像内容,符合实际情况.实验结果表明,所提方法比传统的SIFT等方法更加有效.  相似文献   

6.
为了提高入侵检测系统的实时性和可靠性,基于传统的K-means算法应用于入侵检测系统的有效性和由于随机初始聚类中心而存在的缺陷,基于此缺陷而改进为选取已经初始化的聚类中心距离乘积最大的点为初始聚类中心,并将其运用到入侵检测领域。这种方法可以有效检测出不同类型的入侵行为,并且在KDDCUP99数据集的实验中取得了预期的效果。  相似文献   

7.
当站点较多时,物流运输路径规划存在困难,传统Floyd算法路径规划的时间复杂度过高.鉴于传统Floyd算法规划时间复杂度高是因节点数量过大导致,提出一种结合改进K-means聚类算法的Floyd算法,该算法在节点数量较大情况下,运用改进K-means聚类算法分割物流区域,降低规划所需考虑节点数量,从而降低Floyd算法的时间复杂度.在复杂环境下进行传统Floyd算法和改进算法的对比实验,仿真分析结果表明,改进算法可以在更少的时间内找到一条较优的路径.  相似文献   

8.
因肺部CT图像的三维重建在医学影像分析领域需求较大且难度较高,单独使用一种分割算法的去噪声效果不理想,故提出了将总变分模型与模糊C-均值聚类方法相结合,对CT数据进行分割去噪的方法。将分割后的图像导入自主研发的三维重建软件TM_MIS,它以VTK工具包为基础,使用MC算法和光线投影法对平滑去噪后的CT图像进行三维重建,得到三维虚拟模型。再用3D打印生成肺部血管及病灶的3D模型,代替传统的医生查看CT片的方法,为术前方案的制定及手术过程的模拟提供了更加科学的依据。实验表明,将肺部CT数据通过总变分模型进行去噪平滑,再结合模糊C-均值聚类方法进行分割得到的图像更加清晰,重建后的模型效果更理想。  相似文献   

9.
无线传感器网络(Wireless Sensor Networks,简称WSNs)是一种多跳、自组织式的网络,传感器节点在能量、通信能力以及计算能力等方面均受限,并且在数据传输过程中也存在安全隐患,基于此提出了一种基于K-means聚类的安全高效的数据聚集算法KSEDA(K-means Safe and Efficient Data Aggregation).该算法采用K-means聚类算法对传感器节点进行分簇,通过分析节点的剩余能量进行选择簇头节点;并在向汇聚节点Sink传递过程中通过安全多方计算协议进行数据安全聚集.通过与CPDA算法进行实验对比,算法具有低能耗、高安全性等特点.  相似文献   

10.
研究欠定盲源分离中的混合矩阵估计问题,针对多源时频点对混合矩阵估计的影响,提取时频域单源点用于混合矩阵估计,给出一种时频单源点检测方法. 针对时频单源点中孤立点对混合矩阵估计的影响,剔除单源点中的孤立点进一步提高混合矩阵的估计精度,应用减法聚类方法对剔除孤立点后的时频单源点进行聚类,实现了源信号数目和混合矩阵的同时估计. 语音信号的仿真实验表明,与其他两种基于时频单源点的欠定混合矩阵估计算法相比,所提出的算法具有更高的估计精度和更好的鲁棒性.  相似文献   

11.
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中.  相似文献   

12.
针对K-均值算法易受孤立点影响、对初始中心点选择敏感、易陷入局部最优的问题,对K-均值算法进行了改进,提出了一种自适应优化选择初始中心点的K-均值算法。实验结果表明,改进后的算法不仅较大程度上弥补了传统K-均值算法的不足,并且提高了聚类的稳定性和准确率。  相似文献   

13.
聚类是通过数据标签或者属性,将一系列经验数据按照相似性或者相近性进行归类.基于密度属性展开的聚类算法,主要聚焦在聚类中心的确定和剩余点如何分配的问题上展开讨论.针对基于密度峰值的可训练最短路径算法,通过密度峰值确定聚类中心,提出使用截断阈值、对路径图进行剪枝的算法改进.然后基于最短路径法对剩余点进行全局分配.实验结果证明,在保持聚类精度的同时,有效地提升了算法执行效率.  相似文献   

14.
数据流孤立点检测的主要目的是在合理的时间段内准确发现数据流中的孤立点。传统的孤立点检测算法可以有效发现静态数据集中的孤立点,在动态变化的数据流环境下并不适用,无法及时、有效地发现异常数据。针对数据流环境下对孤立点检测的实时发现、动态调整等要求以及传统算法的不适用,提出了一种新的基于网格的数据流孤立点检测算法ODGrid,ODGrid算法可以实时发现数据流中的异常数据,并根据数据流的变化情况,动态调整检测结果。通过在真实数据集与仿真数据集上的实验,证明了ODGrid算法在精度和速度上优于现有的孤立点检测算法,具有良好的伸缩性。  相似文献   

15.
基于分层聚类的k-means算法   总被引:8,自引:0,他引:8  
为了更好地实现聚类,在分析分层聚类和k-means算法优缺点的基础上提出了一种改进的聚类算法.改进算法将分层聚类和k-means聚类算法的优点相结合,首先采用分层聚类,得到一个初始的聚类结果,然后应用k-means聚类算法继续聚类.实验结果表明,改进算法较原先传统的聚类算法,不但算法执行速度快、效率高,而且聚类效果也比较好。  相似文献   

16.
银行贷款风险评估一直是金融界高度关注的主要问题,现有方法主要包括K-means聚类、BP神经网络、简单决策树、VAR方法等多种风险评估算法。但对于客户属性值缺失的案例,上述方法就很难达到良好的效果。为了解决属性值缺失的风险评估问题。提出了一种基于贝叶斯决策树算法的贷款风险评估算法(DBT ),实验结果证明了该算法的有效性。  相似文献   

17.
DBSCAN算法是一种基于密度的空间数据聚类方法,聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

18.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量.  相似文献   

19.
聚类分析算法研究   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘的重要的组成部分,已经广泛应用于模式识别、电子商务、图像处理等领域。本文对几种主要的聚类及孤立点检测方法进行了分析研究,介绍了各种聚类方法的优缺点,并对聚类研究进行了总结。  相似文献   

20.
一种改进的K means聚类彩色图像分割方法   总被引:1,自引:1,他引:0  
图像分割是从图像处理到图像分析的关键步骤.图像分割的目的是将图像分割为多个互不重叠且又各具特性的区域,主要应用于图像压缩、目标提取、模式识别等.以往的图像分割技术主要应用于灰度图像,随着计算机技术的进步,彩色图像分割逐渐受到关注.该文在前人对彩色图像分割问题的大量研究成果基础上,提出了一种将K-means聚类、蚁群算法以及分水岭算法相结合的分割方法.本方法有效的克服了聚类数目必须依据先验知识提前设定、最初的聚类中心是随机选取的、聚类的效果好坏依赖于距离判定公式的缺陷.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号