首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
待挖掘数据集规模的不断增长,以往的聚类算法由于需要多次扫描原始数据集而不再适用,现阶段,一遍扫描原始数据集即完成聚类的算法成为了首要的研究目标.但是,现有针对大规模数据集的算法容易受到初始化参数以及原始数据集分布的影响,聚类结果质量不高,并且也不稳定.对此,吸收半监督聚类的思想,提出了基于标记集的半监督一遍扫描K均值算法,该算法利用驻留主存的标记集指导聚类过程,使得聚类效率以及聚类结果的质量得到了进一步的提高.在人工生成数据集以及1998KDD数据集上验证了该算法的有效性.  相似文献   

2.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量.数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

3.
基于空间划分的海量数据K邻近新算法   总被引:1,自引:0,他引:1  
逆向工程中,对测量数据的处理首先要建立数据点之间的拓朴结构,这通常通过计算点的K邻近来实现.文中在分析现有算法的基础上,提出了一种新的基于空间划分的海量数据K邻近算法.该算法综合考虑了点云密度、点云数量以及K值对小立方体栅格边长的影响,通过确定合适的小立方体栅格边长以及排除不包含点云数据的小立方体栅格来确定邻近点最佳搜索范围,从而提高了搜索速度,保证了搜索结果的正确性.最后通过逆向软件的二次开发编程验证了算法.  相似文献   

4.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

5.
旅行商问题是经典的NP-hard组合优化问题,在许多领域有着重要应用。近年来,传统遗传算法等各种智能优化方法被引入到该问题的求解中来,但效果不理想。基于理想浓度模型的机理分析,利用均匀设计抽样的理论和方法,对遗传算法中的交叉操作进行了重新设计,并在旅行商问题特点的基础上,结合2-opt局部搜索策略,给出了一个解决旅行商问题的新的遗传算法。通过将该算法与简单遗传算法和佳点集遗传算法进行实例仿真比较,可以看出新算法在求解旅行商问题上提高了求解的质量、速度和精度,而且避免了其它方法常有的早期收敛现象。  相似文献   

6.
王林  吴海桥  郑友石 《科技信息》2010,(32):I0136-I0137
K均值算法是聚类方法中常用的一种划分方法,有很多优点,但也存在不足之处,它对球状、凸形分布的数据具有很好的聚类效果,但对样本的输入顺序敏感,可能产生局部最优解,而且受孤立点影响比较大。本文针对这些不足之处,主要从数据预处理。初始聚类中心的选择和迭代过程聚类种子计算三方面进行改进,并做了改进前后算法的对比实验。结果表明,改进后的算法比原k均值算法具有更高的准确性,受孤立点的影响也大大降低。  相似文献   

7.
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用。提出的基于相对密度的聚类算法,在继承上述优点的基础上,有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

8.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

9.
K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能.  相似文献   

10.
FCM聚类算法具有线性的时间复杂度,但它对初始化非常敏感。而k-中心点轮换法对初始化不太敏感,但其缺点就是时间复杂度较高,不能直接应用到海量数据集的聚类分析中。为克服这两类聚类算法的缺点,而充分利用它们的优点,很自然地提出一种基于近似类抽样的组合聚类算法。这种组合聚类算法的时间复杂度是O(n2m)。仿真实验表明,它具有稳定的聚类结果。  相似文献   

11.
Although k-nearest neighbors (KNN) is a popular fingerprint match algorithm for its simplicity and accuracy,because it is sensitive to the circumstances,a fuzzy c-means (FCM) clustering algorithm is applied to improve it.Thus,a KNN-based two-step FCM weighted (KTFW) algorithm for indoor positioning in wireless local area networks (WLAN) is presented in this paper.In KTFW algorithm,k reference points (RPs) chosen by KNN are clustered through FCM based on received signal strength (RSS) and location coordinates.The right clusters are chosen according to rules,so three sets of RPs are formed including the set of k RPs chosen by KNN and are given different weights.RPs supposed to have better contribution to positioning accuracy are given larger weights to improve the positioning accuracy.Simulation results indicate that KTFW generally outperforms KNN and its complexity is greatly reduced through providing initial clustering centers for FCM.  相似文献   

12.
基于共空间模式和K近邻分类器的脑-机接口信号分类方法   总被引:1,自引:1,他引:1  
脑-机接口是指在人脑和计算机之间建立的直接的交流和控制通道,它以脑电信号的形式反映人的意识,并转换成控制信号.针对两类运动想象脑电信号的分类问题,提出共空间模式和小波包分解相结合的脑电信号特征提取方法.利用不同小波包对训练集的多路脑电信号进行分解,再用共空间模式算法对不同分解层子带的脑电信号进行特征提取,并采用K近邻分类器对提取到的不同特征进行分类,得到最优小波包函数和小波包子带参数.将结果应用于测试集数据的分类.仿真实验结果表明,选择db4小波包函数和4层小波包分解层,对8个特征点进行分类,可以得到高达96%的正确率.  相似文献   

13.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一...  相似文献   

14.
多目标跟踪是无线传感器网络当前研究的热点问题。针对多目标跟踪存在耗能较大,跟踪丢失等问题,提出了一种自适应采样间隔的多目标跟踪算法。采用跟踪目标的定位元数据来对目标的运动模式进行建模。基于扩展的卡尔曼滤波器来预测跟踪目标状态,采用预测目标定位的概率密度函数构建跟踪簇。通过定义跟踪目标中心,基于马氏距离来量化主节点 MN 的选举过程。通过跟踪目标重要性和其与MN之间的距离来量化目标的影响强度,并以此构建自适应采样间隔的多目标跟踪算法。基于MATLAB进行了仿真实验,实验结果显示,本文设计的跟踪算法能准确预测目标的运动轨迹,能随着运动目标的状态实时采用自适应的采样间隔。通过数据分析得知,本文提出的算法能在实现 WSN网络节能的基础上提高跟踪精度。  相似文献   

15.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

16.
【目的】近年来,枣瘿蚊(Dasineura jujubifolia)在陕西榆林设施枣树基地危害严重,造成巨大经济损失。研究枣瘿蚊幼虫在设施枣树上的空间分布型及抽样技术,掌握枣瘿蚊在寄主上的发生情况和生物学特性,为该虫的监测预报和防治提供参考。【方法】2020年4—5月,在陕西省榆林市佳县柳树会村,选取枣瘿蚊幼虫危害严重的设施枣树样地。采用五点抽样法、双对角线抽样法、棋盘式抽样法、平行线抽样法和“Z”形抽样法抽取受害枣树,运用全株调查法(全查法)统计每株枣树上枣瘿蚊幼虫的数量。5种抽样方法与全查法之间进行t检验、误差率和变异系数比较,筛选出最适合的抽样方法,然后应用7种聚集度指标、Iwao的m*-m回归分析法和Taylor幂法则对枣瘿蚊幼虫在设施枣树上的空间分布型进行研究。【结果】5种抽样方法均适合设施枣树枣瘿蚊幼虫的调查,其中平行线抽样法为最适合的抽样方法。调查表明,枣瘿蚊幼虫在设施枣树上的空间分布型呈聚集分布,分布的基本成分为个体间相互吸引,密度越大,个体群聚集度越高;其聚集分布由个体的聚集习性引起。依据Iwao的m*-m回归分析确定了枣瘿蚊幼虫的最适理论抽样公式为N=3.841 6/D2(2.878 3/m+0.176 5),当枣瘿蚊幼虫的防治阈值设置为4头/株,序贯抽样模型公式为$T_{(n)}=4 n pm 7.4214 sqrt{n}$。若调查100株设施枣树,当枣瘿蚊幼虫数量累计大于474头时,需要进行防治。【结论】枣瘿蚊幼虫在设施枣树上的最适调查方法为平行线抽样法,其空间分布型为聚集分布,为该虫在设施枣树上的防治提供了基础资料。  相似文献   

17.
多策略中文微博细粒度情绪分析研究   总被引:1,自引:0,他引:1  
针对中文微博用户的情绪分析问题, 提出一种基于多策略融合的细粒度情绪分析方法。首先采用朴素贝叶斯算法对微博的有无情绪分类问题进行研究, 然后构建有情绪微博的21维特征向量, 最后采用SVM和KNN算法对微博进行细粒度情绪分析。以新浪微博作为实验对象, 结果表明多策略集成方法好于单一分类 算法。在多策略集成方法中, “NB+SVM”方法略优于“NB+KNN”方法。  相似文献   

18.
嵌入式图像采集及自主足球机器人视觉系统   总被引:1,自引:0,他引:1  
在分析已有视频采集处理系统实现方法优劣的基础上,针对一些方法的不足,设计了基于CPLD(Complex Programmable Logic Device)和DSP(Digital Signal Processor)的嵌入式图像采集系统,包括CCD(Charge Coupled Device)摄像头、SAA7111A,AL422B,EPM7128及TMS320VC5402,对系统各个组成模块间的接口进行了详细的分析,并应用于自主式足球机器人的视觉系统.与利用PC104 的视觉系统相比,体积只有原系统的1/3,功耗仅为原系统的1/10.  相似文献   

19.
In the paper, we consider a network of energy constrained sensors deployed over a region. Each sensor node in such a network is systematically gathering and transmitting sensed data to a base station (via clusterhead) for further processing. The key problem focuses on how to reduce the power consumption of wireless microsensor networks. The core includes the energy efficiency of clusterheads and that of cluster members. We first extend low-energy adaptive clustering hierarchy (LEACH)'s stochastic clusterhead selection algorithm by a factor with distance-based deterministic component (LEACH-D) to reduce energy consumption for energy efficiency of clusterhead. And the cost function is proposed so that it balances the energy consumption of nodes for energy efficiency of cluster member. Simulation results show that our modified scheme can extend the network life around up to 40% before first node dies. Through both theoretical analysis and numerical results, it is shown that the proposed algorithm achieves better performance than the existing representative methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号