首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用。提出的基于相对密度的聚类算法,在继承上述优点的基础上,有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

2.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

3.
曲超 《科学技术与工程》2013,13(19):5696-5701
在K近邻和逆K近邻理论基础上提出了K近邻团的概念。通过度量对象间的相似度,任意两个元素都互为K近邻和逆K近邻的对象集合构成一个K近邻团。利用同一个K近邻团中的对象彼此都具有较高相似性的特点,选取不同的K值对目标集合进行聚类。通过实验证明了该方法的有效性。  相似文献   

4.
针对传统K近邻法的缺陷,改进的K近邻法首先对训练样本进行聚类,将样本的特征空间划分成若干满足一定条件的小超球体,然后依据最近间隔值在这些小超球体内搜索待分类样本的K个近邻点.算法通过特征选取,选出反映样本模式重要信息的特征,从而确保了聚类的质量.同时K近邻算法中引入的最近间隔值,既确定了近邻点的搜索半径,又保障了搜索的准确性.通过实验证实,该方法不但节省时间,还有较高的识别率.  相似文献   

5.
莫北地区侏罗纪三工河组,岩性主要是中、细砂岩,属低孔低渗储层,所以储层流体性质的识别是该地区急需解决的问题。针对常规测井储层识别准确率不佳的情况,提出了Bp神经网络这种数学方法进行储层的油、气、水、干层的识别。提出43个试油层段的测井曲线特征值,以对流体性质敏感并且在交会图上具有比较明显区分度的密度值(DEN)、孔隙度(POR)、电阻率值(RT)和含水饱和度值(SW)作为输入向量,经程序训练判别准确率达到满足的要求后根据得到的权值、阈值编写神经网络预测的程序挂接在测井解释软件中,从而实现了Bp神经网络在储层中的自动化识别。  相似文献   

6.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

7.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

8.
针对煤与瓦斯突出影响因素复杂,即不仅具有随机性,又具有模糊性。为了保证预测的准确性,采用组合聚类策略。通过建立多个k近邻聚类器,可以产生多个簇集。来自不同簇集的子簇之间必然存在交集,最后利用子簇的加权连通图合并子簇。以平顶山八煤矿煤与瓦斯突出的相关因素指标为基础,对历年的煤与瓦斯突出的数据进行聚类分析,预测结果表明,该方法具有较好的预测效果,为煤与瓦斯突出预测提供了一种新的解决方案。  相似文献   

9.
针对密度峰值聚类算法(DPC)中存在的截断距离难以确定、局部密度定义单一的问题,本文提出了一种基于密度万有引力改进的引力峰值聚类算法(DG-DPC算法)。该算法使用相互K近邻的方法对相似性度量和局部密度进行了重新定义,然后将引力参数引入到DPC算法中,并通过新的相对局部密度与引力参数的倒数作出决策图选取簇中心,对数据集中的点进行分配。仿真实验表明,DG-DPC算法对于人工合成数据集和UCI数据集都有效,且准确率相对于基于相对密度优化的密度峰值聚类算法(RE-DPC算法)、DPC算法、基于间隙自动中心检测的密度峰值聚类算法(GAP-DPC算法)分别平均提高了31.07%、21.60%、17.20%。  相似文献   

10.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

11.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

12.
针对指纹定位精度易受指纹数据K-means聚类预处理效果不佳、加权K近邻算法采用固定K值进行匹配定位精度差等问题,提出一种基于改进K-means聚类的自适应加权K近邻算法.算法在对指纹数据进行聚类计算过程中充分考虑参考点间接收信号强度值与实际物理坐标的双重影响,以避免参考点分类不明确;根据每个测试点的匹配参考点之间实际距离的均值和标准差设置阈值,动态选择K值.实验结果证明,改进K-means聚类的自适应加权K近邻算法相较于传统室内定位算法定位精度提高了44%,可为相关应用提供更精确的定位服务.  相似文献   

13.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

14.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

15.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

16.
针对已有的基于聚类的彩色图像分割存在的问题,提出了一种基于IHLS颜色空间和密度聚类的彩色图像分割方法.利用IHLS颜色空间改善光照敏感和颜色一致性问题.由于DENCLUE聚类算法聚类速度较慢且需要提供2个用户参数,因此对于DENCLUE算法的迭代策略和参数优选方面进行了改进.实验结果证明此方法具有较好的准确度和鲁棒性...  相似文献   

17.
针对最小二乘回归子空间聚类法没有考虑近邻样本对求解表示系数的影响这一不足,提出近邻系数协同强化子空间聚类法.该方法利用近邻样本相似导致表示系数接近的思想定义近邻系数协同强化项.通过近邻样本的系数强化表示系数,从而得到更能反映样本相似度的相似矩阵,进而提高聚类准确率.在6个人脸图像数据集上的实验表明该方法是有效的.  相似文献   

18.
针对动态心电图波形数据量大且具有明显个体差异性的特点,提出了一种改进的K近邻分类算法,用于动态心电图波形分类.该算法首先将实例间的度量改为曼哈顿距离(City Block Distance),然后引入高斯核函数,将K近邻算法改进为非线性分类算法,以达到分类动态心电图波形的目的.实验结果表明,该算法在对动态心电图波形进行分类时,分类精度在90%以上.  相似文献   

19.
针对聚集系数未涉及间接邻居连通性和无法正确描述大节点度网络节点的问题,提出聚集度的新度量-邻居系数,并基于其统计意义提出邻居系数网络模型.邻居系数从邻居演化的角度描述聚集度,定义为网络节点的间接邻居也是其直接邻居的概率,分析表明邻居系数可有效地描述各种网络节点的聚集度.邻居系数模型是通过引入局域连接这一邻居演化机制对Barabási-Albert(BA) 无尺度网络模型的扩展.仿真结果表明邻居系数网络模型既具有可调的聚集度,又保持节点度的幂率分布.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号