首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 741 毫秒
1.
通过挖掘北京市出租车历史轨迹数据,分析出租车载客热点区域,从而为空载行驶的出租车司机提供寻客方向.基于大数据平台的历史轨迹数据预处理,按照数据生成时间对出租车历史数据进行排序,提取历史数据中的所有乘客上车地点;使用聚类算法对提取出的上车地点进行聚类分析,提取乘客频繁出现的区域.以出租车寻找乘客为背景,分别采用基于密度的DBSCAN算法和基于距离的K-means算法对载客点进行聚类.采用聚类算法性能评估中的DB内聚指数对两种算法的聚类效果进行评估,结果显示工作日和非工作日DBSCAN算法聚类结果的内聚效果均优于Kmeans算法.  相似文献   

2.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

3.
余寒  刘汉湖  曾敏  陈军 《河南科学》2020,38(3):370-375
K值是基于K-means聚类算法进行图像分割效果的关键因素,为了解决K值过小,图像分割不明显,K值过大,图像分割信息过于碎片化的问题,提出一种Regional Merge K-means(RMK)算法.首先对图像运用K-means算法进行聚类,然后运用区域合并(Regional Merge)优化图像分割效果,最后利用不同图像进行图像分割试验,并选用不同的质量评价指标对试验结果进行评价.结果表明,该算法能显著优化图像分割效果.  相似文献   

4.
张海霞 《石河子科技》2023,(1):54-55+58
针对单一聚类算法存在的多种问题,提出一种基于KWAP-KNN的分区聚类算法。首先,结合信号发射装置和实际定位环境进行区域粗划分,之后通过K-means聚类对该方法中未覆盖节点及交叉节点进行聚类,得到最新分区结果。区域划分之后,通过熵值法对仿射传播算法(WAP)中偏向参数p进行优化,以进一步提高其聚类的效率,最后通过K最近邻算法(KNN)算法得到粗定位结果。实验结果证明,区域划分后,KWAP-KNN算法得到的粗定位结果更准确,定位精度可达到1.8m左右。相比较其他算法,WAPKNN算法的平均误差、最大最小误差值最小。  相似文献   

5.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

6.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

7.
针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。  相似文献   

8.
针对谱聚类算法中常用的K-means算法对特征向量空间进行聚类初始值敏感等问题,提出了一种新的基于仿射传播(AP)的谱聚类算法。首先,利用动态时间规整(DTW)距离度量各船舶自动识别系统(AIS)轨迹之间的结构相似性,得到距离矩阵;其次,使用快速AP聚类算法改进传统谱聚类算法,基于指定的类别数对内河桥区水域船舶AIS轨迹数据进行实例验证。仿真实验结果表明:本文算法在不增加时间复杂度的基础上,比传统谱聚类算法有更高的鲁棒性,且实验准确率提高5.24%。  相似文献   

9.
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.  相似文献   

10.
基于K-medoids项目聚类的协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对传统协同过滤推荐算法通常针对整个评分矩阵进行计算,存在效率不高的问题,提出一种基于K-medoids项目聚类的协同过滤推荐算法.该算法根据项目的类别属性对项目进行聚类,构建用户的偏好领域,使用用户偏好领域内的评分矩阵进行用户间相似度的计算,得到目标用户的最近邻居集,并生成推荐结果.与常用的K-means聚类方法相比,采用K-medoids方法对项目类别属性进行聚类,不仅克服了评分聚类可靠性不高的问题,而且算法还具有更好的鲁棒性.实验结果表明,该算法能有效提高推荐质量.  相似文献   

11.
数据聚类是一个功能强大的技术,它能够把数据特征相似的对象划分为一类,但是并不是所有的聚类算法的实现都能产生相同的聚类结果;并且K均值算法的结果很大程度上依赖它的初始中心的选择;提出了一种新颖的关于K均值初始中心选择的策略;该算法是基于反向最近邻(RNN)搜索,检索一个给定的数据集,其最近的邻居是一个给定的查询点中的所有点;使用这种方法计算初始聚类中心结果发现是非常接近聚类算法所需的迭代聚类中心;对提出的算法应用到K均值聚类中给予了证明;用几种流行的数据集的实验结果表明了该算法的优点。  相似文献   

12.
黄欣  余思东  赵志刚 《广西科学》2020,27(1):104-109
针对车载自组织网(Vehicular Ad Hoc Networks,VANETs)拓扑结构经常变化导致通信链路容易断裂而通信质量不可靠的问题,将人工蜂与K-means混合算法应用在VANETs中。在成簇阶段,该混合算法利用人工蜂算法较强的全局搜索能力确定初始聚类中心,代替传统的K-means对初始聚类中心的选择,这样就消除了K-means对随机初始聚类中心的依赖。在簇头选取阶段,类内具有最小的速度方差以及到其他节点最小平均距离的车辆节点被选择为簇头。在簇的维护阶段,当最优节点即簇头有变化时,次优节点被选为临时簇头,直至更新为最优节点的簇头信息。为测试该混合算法的性能,将其和PSO与K-means混合算法、经典K-means算法进行实验对比,结果表明,该混合算法能够更加稳定VANETs通信链路,具有更高成簇质量和更高通信质量。  相似文献   

13.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

14.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

15.
针对K-均值聚类算法存在的不足,提出了一种新的整合粒子群优化算法(PSO)和K-均值算法的聚类算法.在新算法中,首先结合使用粒子群优化算法和K-均值算法搜索全局最优解的位置,然后再用K-均值算法在全局最优解附近的局部空间内快速寻找最优聚类中心.通过对4个数据集的实验测试,将此算法与K-均值算法、基于粒子群的K-均值算法进行了比较.实验结果表明,新算法的聚类质量比后两个算法更优.  相似文献   

16.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

17.
K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能.  相似文献   

18.
Fabric作为超级账本的核心项目,以其多通道的设计为用户提供更为隐私的交易空间,为了解决基于分布式架构下的多通道资源负载均衡问题,提出了基于NJ W谱聚类的区块链即服务(BaaS)负载均衡调度算法SC-channel.该算法将平台子节点的数量作为划分类簇数量的依据,首先,基于通道采用peer之间的Jaccard系数构造相似矩阵;其次,计算拉普拉斯矩阵,求取前k个特征值和特征向量并将特征向量单位化;最后,用基于数量加权的k-means算法完成聚类.在Kubernetes平台上对这种方法进行验证,并与采用经典k-meansi的NJW算法默认调度算法下的资源负载均衡度做了比较分析.结果表明,采用基于谱聚类的BaaS资源负载均衡调度算法可提高资源利用的均衡程度,增强了平台的可用性与可靠性.  相似文献   

19.
针对传统K-medoids聚类算法初始聚类中心随机选择、聚类精度不高、全局搜索能力较差以及禁忌搜索算法对初始值随机选取等问题,提出了一种粒计算与最大距离积法相结合的初始化禁忌搜索初始值算法,将改进后的禁忌搜索算法用来优化K-medoids,以提高聚类算法的性能。通过仿真试验论证了该算法具有较高的效率和准确率以及较强的稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号