首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

2.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

3.
利用三种不同的聚类方法——利用类均值的最小距离聚类、利用类均值的最大距离聚类和利用最大间隔准则聚类,提出了三个基于SVM的决策树多类分类器.为了检验所提算法的有效性和先进性,对AVIRIS遥感图像进行了实验.实验结果表明,本文所提的三种算法明显好于最小距离分类法、线性判别分类法、决策树分类法、OAR-SVM和OAO-SVM.  相似文献   

4.
研讨了数据挖掘中K-means聚类算法,在继承经典K-means算法的优点和基于最大最小距离的方法基础上实现了算法的改进,改进后的算法可根据欧氏距离度量的方法自动确定聚类中心个数K值,并能够识别数据对象中存在的孤立点和噪声,经过实验证明改进后的算法在执行效率、稳定性和K值确定方面都优于K-means算法.  相似文献   

5.
针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。  相似文献   

6.
利用测地线距离的改进谱聚类算法   总被引:1,自引:1,他引:0  
针对往复式压缩机故障数据空间分布复杂、常规算法不能有效聚类的问题,提出了一种改进的谱聚类算法.该算法使用新的相似度矩阵计算方式,根据故障数据流形分布的特点引入测地线距离取代欧氏距离作为数据间的关系度量;通过计算各数据点的邻域密度因子有效地识别和剔除了噪声点;利用基于密度的局部欧氏距离调整方法对流形间隙过小的区域进行了处理.在几个人工数据集和往复式压缩机故障数据集上的测试结果表明,改进谱聚类算法对于具有流形分布、多尺度、有噪声、流形间隙过小甚至交叉等特点的数据具有很好的聚类能力,聚类准确率比常规的k-均值和MSCA谱聚类算法分别提高了50.86%和8.6%.  相似文献   

7.
针对毫米波雷达数据均匀性差,数据量小,噪点多等问题,提出一种基于DBSCAN (density-based spatial clustering of applications with noise)的雷达自适应聚类算法.改进算法能够根据K近邻距离和目标反射截面自适应调整聚类半径.首先给出一种聚类半径根据K近邻距离动态调整的机制:目标第K个近邻的距离与阈值相比较,以确定阈值半径取值.再提取雷达提供的目标反射截面,基于该值计算目标假象半径作为聚类半径的补充量.实现根据目标反射截面与数据稀疏程度自适应聚类的效果.将改进算法与不同参数的DBSCAN聚类算法在真实雷达点云数据进行实验对比.相较于选取合适参数的DBSCAN算法,改进算法能够更好适应毫米波雷达点云特征,对行人目标识别准确率提高4.18%,对车辆目标识别准确率提高5.63%.  相似文献   

8.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

9.
作为一种自组织网络,Kohonen神经网络在遥感影像聚类中得到了广泛的应用.但Kohonen算法具有初始权值随机化、学习率和邻域难以确定等缺陷,并且作为一种聚类算法,难以直接进行监督分类.对Kohonen非监督学习算法进行改进,用最大最小距离法确定初始权值,利用权值误差作为网络训练收敛条件,并将Kohonen算法与奖惩...  相似文献   

10.
作者针对传统k-means初始点的选择提出基于最小距离的优化算法。首先构造数据点集的带权无向图,更新数据点间的最小距离,然后利用最小距离获取数据点的密度函数,通过数据点的密度获取初始聚类中心,最后根据带权无向图中的路径长度获取邻近数据点形成初始聚类,对初始聚类内的数据点平均得到该类簇的聚类中心。实验结果表明,在相同的条件下所提算法在聚类效果上优于传统的k-means算法。  相似文献   

11.
图形的自动识别是计算机辅助设计和辅助教学研究中的一个难点,识别图形的重要判据是两图的特征重合率.本文对图形的基本要素之一———直线的相似判别进行了研究,霍夫变换方法常应用于图形判别和图像识别,霍夫变换是将图形空间的点根据某些约束条件拟合成线段,点可以用通过该点的线段集合来描述.本文最后利用了聚类方法中的最小距离法进行了两个图形特征相似性的判别,通过最小距离法可以进行图形正确与否的判别.  相似文献   

12.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

13.
为准确全面感知高速公路交通运行状况,根据高速公路海量收费数据,提出一种高速公路通行异常事件识别的数据挖掘方法。首先,选取贵州省2017年1月的高速公路收费数据,筛选指定的进站、出站数据并去除多余字段,利用车辆进入和驶出收费站时间计算其在该路段的通行时长。然后,使用快速峰值聚类算法对通行时长和车辆总重进行聚类分析,计算数据间欧式距离,将此距离矩阵作为算法输入,计算各数据点的局部密度ρ及与密度更高点的距离δ两项指标;这两项指标均以较高的点为聚类中心,进而对非中心点进行分类及优化,输出聚类结果;聚类结果中除被分为若干类的正常数据外,还存在一些数据点明显异于大部分正常数据的噪声点,即异常数据,对这些异常数据进行具体分析。接着,采用孤立点检测法对筛选出的数据进行清洗处理,提取异常数据,检测出通行时间过长、过短及车辆总重过高、过低等异常事件。最后,将孤立点检测法得到的异常数据与快速峰值聚类算法的异常数据进行对比。研究结果表明:快速峰值聚类识别异常事件的准确率高于孤立点检测法约20%,验证了提出算法的有效性和准确性;提出的算法能有效准确识别收费数据中隐藏的公路拥堵、长时间停留、疑似逃费和网络设备故障等异常事件,进而为高速公路运营服务和管理决策提供数据支持。  相似文献   

14.
为克服传统的针对平面曲线间Hausdorff距离4种情况需分别求解不同非线性方程组的缺点,分两个步骤计算平面曲线间的Hausdorff距离.首先将曲线A进行离散化处理,并计算各离散点到曲线B的最小距离,从中选择若干个距离较大,且满足曲线A上相邻点到曲线B的距离呈"小大小"的点对作为近似解;然后根据各点对处曲线的特点,判断该点附近可能存在4种类型点的哪一种,建立相应的优化模型并进行局部寻优,选择优化结果中最大的距离值作为两平面曲线间的单向Hausdorff距离.该法将平面曲线间Hausdorff距离的计算转化为点到曲线的最小距离计算,计算过程简单有效.两个数值算例验证了该方法的正确性.  相似文献   

15.
给出一种将网格技术、密度技术与分形理论的自相似性结合起来的一种有效聚类算法,利用分形维度变化最小同时是相似程度最大的特点来划分数据集从而得出聚类结果.实验表明该算法可以快速有效的处理多维大型数据集,识别出任意形状簇的个数,而且可以从数据集中挖掘出一些有用的分布信息.  相似文献   

16.
使用标准模板匹配识别算法对图像中的字符进行识别时,图像中的背景噪声会导致识别准确率较低.为了提高识别准确率,提出一种基于分布加权的模板匹配识别算法,在获取图像与模板在对应的各个像素点上的匹配情况后,根据点间距分别对匹配点和不匹配点进行聚类,将聚集在一起的点划分到同一个分组中,根据聚类结果对不同组内的点设置不同的权重值,再计算图像与各个模板的匹配度,将匹配度最高的模板代表的字符作为识别的结果.实验结果证明,此算法提高了对有背景噪声的字符图像进行识别的准确率.  相似文献   

17.
乳腺核磁共振影像( MR)的有效分割一直是医学影像分析领域的研究热点。针对目前人工解读图像信息的不足,提出一种自动化分割乳腺MR图像的方法,该方法结合传统FCM算法和最小距离分类器实现了感兴趣区域中不同位置、灰度值相似的样本点按距离分类。算法首先根据图像的灰度信息利用FCM算法实现聚类,其次自动提取感兴趣区域的聚类信息,并利用最小距离分类器对其按距离分类。实验结果表明,该算法对乳腺核磁共振影像的分割具有较高的准确性,提高了其组织划分的精度,且自动化程度比较高,为后续进行肿瘤区域的自动提取与识别奠定基础。  相似文献   

18.
针对K-means聚类算法对初始聚类中心敏感问题,提出1种结合方差与误差平方和的优化算法.首先,该算法基于方差和距离选取k个位于不同区域且样本点相对集中的集合.然后,分别选取使这k个样本集合误差平方和最小的数据作为k个初始聚类中心.利用改进算法与其他算法将UCI数据库中所选取的数据集进行聚类划分,对比不同算法下的聚类结...  相似文献   

19.
本文面向出行GPS轨迹中停驻点的识别问题,提出一种基于最小覆盖圆的时空聚类方法。使用停驻范围阈值对轨迹点进行聚类,使用停驻时间阈值对聚类类簇进行初步过滤,使用类簇近邻距离与类簇近邻时间两个阈值对预过滤类簇进行合并,继而使用停驻时间阈值进行最终过滤得到停驻时段与停驻点。该算法改进了已有时空聚类算法中初始类簇的确定方法,提高了计算效率。由于现有的查全率与查准率无法准确衡量停驻点识别结果的精度,基于停驻时段精确度对查全率与查准率计算计算方法进行修改。使用包含9 923个轨迹点的轨迹进行算法有效性检验,轨迹中包含的三个停驻时段均得到有效识别,查准率与查全率均为0.82,实验结果表明,该算法在轨迹重合度高以及轨迹漂移等情形下具有较高的准确性。  相似文献   

20.
为了提高结构化道路边界检测的准确性与鲁棒性,结合非参数变点统计方法,提出了一种基于32线激光雷达三维点云的道路边界提取算法。基于结构化道路区域和非道路区域存在一定高程跳变特征,该算法利用非参数变点统计,对激光雷达扫描的道路环境三维点云数据中突变的z坐标值进行标记,并提取对应的候选道路边界点(x,y)。利用道路边界方向的最大期望(EM)聚类算法,对候选道路边界点进行聚类去噪。利用最小二乘法拟合道路边界,在不同光照条件下的校园结构化直、弯道路环境进行实车实验,统计直道1 030帧数据和弯道650帧数据。仿真结果表明:算法识别准确性较高且检测距离达18 m,耗时约28 ms,可满足智能车实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号