首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
根据K近邻、共享K近邻和互K近邻三种近邻算法的思想分别构造复杂网络,然后通过复杂网络的社团发现算法来实现对样本的聚类.最后,将三种方法分别在人工构造的非凸类簇数据集和UCI数据集上进行仿真实验,结果表明三种方法都是可行的,且互K近邻网络聚类方法还具有识别一定数量孤立点功能.  相似文献   

2.
针对传统K近邻法的缺陷,改进的K近邻法首先对训练样本进行聚类,将样本的特征空间划分成若干满足一定条件的小超球体,然后依据最近间隔值在这些小超球体内搜索待分类样本的K个近邻点.算法通过特征选取,选出反映样本模式重要信息的特征,从而确保了聚类的质量.同时K近邻算法中引入的最近间隔值,既确定了近邻点的搜索半径,又保障了搜索的准确性.通过实验证实,该方法不但节省时间,还有较高的识别率.  相似文献   

3.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

4.
为了提升分布不均匀样本的分类性能,该文提出了一种基于互邻信息的树型近邻(Tree-based k近邻,kTree)分类方法,以此提高k近邻分类的准确率。首先,采用回归模型刻画样本之间的紧密程度,获取每个样本的最优k值,从而获得最优邻居,并采用kTree提升搜索效率。其次,对于每一个测试样本,基于互邻信息准则,确定其邻域空间,完成k近邻分类。最后,数据集的试验结果表明,该文提出的基于互邻信息的kTree分类准确率高于传统k近邻分类等其他分类算法。该文提出的方法也为k近邻分类的改进提供了新的方向。  相似文献   

5.
针对传统KNN算法忽略样本分布对分类的影响,易受到孤立样本、噪音等干扰,时间代价大等问题,提出了一种改进的近邻分类算法.该算法首先采用类维样本存储,打破了样本的整体性,转换了训练样本存储模式;其次按类维度寻求未知样本的类维近邻域,计算类维相似度进而得到未知样本的类别相似度;最后以最大类别相似度标识未知样本.该算法提高了分类效率,降低了独立样本对样本分类的影响.同时可处理连续型和标识型样本分类,并可适应各类样本分布情况,扩大了算法的应用范围.实验结果表明,该算法较传统的近邻算法与邻域分类算法在分类精度与分类时间上有了较大提升.  相似文献   

6.
基于整个数据集的稀疏表示(sparse representation classification,SRC)用于人脸识别在很大程度上影响了运行效率.如何利用较少样本稀疏表示在保证计算效率的同时,识别率也有一定提升,尤其是面对光照、角度、姿态等非受控环境,目前仍是一个问题.考虑到协同表示(collaborative representation classification,CRC)基于l2范数稀疏求解的优势,为进一步提升CRC的整体分类性能,引入类内近邻,提出一种二次近邻稀疏重构表示法.该方法首先在原始训练集上选择各类训练样本中与待测样本距离相近的若干样本组成近邻样本集,并协同表示,接着分别用各类近邻样本重构待测样本,再次选择与待测样本相近的若干重构样本协同表示,最终实现模式分类.在ORL和FERET数据库上的仿真实验表明,相比现有的一些CRC算法,该方法在一定程度上缩短了运行时间,并使识别更精确.  相似文献   

7.
针对基于支持向量机算法的网络入侵检测方法,对交错严重的大规模复杂样本集,分类面附近的样本被正确分类可信度低,基于k近邻算法的检测方法测试结果不稳定等问题,提出一种将k近邻与支持向量机相结合的网络入侵检测方法。在分类时,计算待识别的网络连接记录样本与最优分类超平面的距离,如果距离大于预设阀值,采用支持向量机算法对连接记录进行分类,否则采用k近邻法对连接记录进行分类,同时为减少检测方法受样本分布不均衡的影响,采用带权重因子的欧式距离来度量样本间的相似度。最后在KDD99数据集上进行仿真实验,结果表明,相对于单一的支持向量机或k近邻算法的网络入侵检测方法,k近邻与支持向量机相结合的入侵检测方法可以进一步提高网络入侵检测的正确率,是一种较好的网络入侵检测方法。  相似文献   

8.
由于有序与无序特征之间的复杂关系,现有分类方法不能有效处理混合数据(同时包括有序和无序特征)上的分类问题。针对此问题,提出了基于k近邻的混合数据分类方法(a classification method for mixed data based on k-nearest neighbor,MDKNN)。首先通过区分有序和无序特征计算样本之间的距离,获取特征的序信息和统计信息;然后分别从优于和劣于预测样本的训练集中选出最近邻样本,并基于模糊关系计算其类隶属度,以确定预测样本的类标签范围,从而保证预测结果的单调性;最后在该范围内计算分类结果。在来自UCI和WEKA的12个公开数据集上进行实验,分别与基于k近邻模型的MKNN、FKNN、MFKNN算法和基于非k近邻模型的PMDT、OLM、OSDL算法比较,所提方法都获得了最高的平均准确率,且分别比两类模型中的最优算法MFKNN和PMDT提高了7.13%和9.84%,表明了所提方法的有效性。  相似文献   

9.
一种改进的随机近邻算法   总被引:1,自引:0,他引:1  
提出一种随机近邻分类的改进算法,它仍采用随机近邻判决准则,利用全局寻优思想,设计了最邻近生成算法,在理论和实践上说明了新算法分类良好的非线性、非球形性的特点,获得了与样本输入顺序无关的确定性结果.该算法原理简单,计算步骤明确,易于编程,可操作性强,便于应用推广.  相似文献   

10.
针对传统储层流体识别方法识别精度低、运算量大、过于依赖个人经验的缺点,提出基于密度聚类的K近邻法,根据待测层段测井数据的空间分布规律,将样本按相对密度聚类成数据簇,并利用K近邻投票获得各簇所属类别。将该方法应用在某油田奥陶系鹰山组碳酸盐岩储层识别中。结果表明,较之其他常用识别方法,该算法识别精度高,泛化性和鲁棒性强,在处理大数据分类问题时具有明显优势,且在识别常规方法难以识别的油水同层时取得了较好的效果,具有良好的应用前景,为利用数据挖掘方法解决油田勘探开发中的复杂问题提供了新思路。  相似文献   

11.
范围最近邻(RNN)查询检索到一个区域内每个点的最近邻(NN),它是点和连续最近邻查询的推广.本文将范围看作矩形,分析了二维空间中范围最近邻查询的性质,描述了算法处理过程,并对提出的算法进行了性能分析.  相似文献   

12.
分析北京地区日降雨量资料,相较于其他降雨事件,大雨或暴雨事件发生的次数较少,因此该地区的降水量预报属于样本不均衡问题。在样本不平衡的情况下,K最近邻(PNN)算法的分类误差率将会大大提高,这也就使传统的基于K最近邻算法的降水量预报方法的应用受到了限制。针对北京地区降水量预报这一样本不均衡问题,应用伪最近邻算法构建了北京市的降水量预报模型。该方法利用北京地区日降雨量资料和美国国家环境预报中心全球格点资料,将降雨量作为类,将美国国家环境预报中心全球格点资料的各种因子场作为天气样本特征,通过决策规则实现最优分类。利用提出的降水预报模型对北京地区2010年6~8月进行了24 h降水预报,实验结果表明,提出的预报方法对于降水等级预报的预报准确率以及晴雨预报的TS评分、正样本概括率和漏报率均优于传统的K最近邻预报方法,该方法具有较好的预报效果。  相似文献   

13.
k局部凸包分类方法通过改进k近邻算法在处理小样本问题时的决策边界而显著提高分类性能,k子凸包分类方法通过克服k凸包分类对类数和样本环状分布的敏感性而改善了分类性能。但是,该方法仍然对样本距离度量方法敏感,并且在k邻域内不同类的样本数经常严重失衡,导致分类性能下降。针对上述问题,文章提出了一种邻域k凸包分类方法,并通过引入距离度量学习和集成学习技术来提高算法对样本空间度量的鲁棒性。大量实验表明,文中提出的基于度量学习的邻域k凸包集成方法具有显著的分类性能优势。  相似文献   

14.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

15.
随着无线通讯及连续移动对象寻轨技术的高速发展,迫切需要提出解决大量移动对象查询的有效方法。本文提出了一个解决连续移动点反向最近邻查询的算法,同时也提出了解决连续移动点的最近邻查询算法。  相似文献   

16.
分析了CHAMELEON聚类算法的不足,定义一种基于k最临近集和共享k最临近集的相似度函数,在此基础上提出了一种结合分类算法的新聚类算法,经过对模拟的复杂数据组和KDD Cup'99网络非法入侵数据的实验,证明该算法能有效的对由大量噪音和不同形状、大小及密度的类组成的高维数据进行聚类.  相似文献   

17.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

18.
一种基于广度优先搜索邻居的聚类算法   总被引:8,自引:0,他引:8  
聚类算法BFSN广度优先搜索某对象的直接邻居和间接邻居,对符合条件的所有找到的邻居合并,从而完成一类聚类.接着重复该步骤完成所有对象的聚类.与同类算法相比,该算法具有实现简单、复杂度低和容易设定最佳参数等优点.实验证明,在聚类正确率相近的情况下,该算法的效率比较高,而且能揭示同类对象之间的相异程度.  相似文献   

19.
数据聚类是一个功能强大的技术,它能够把数据特征相似的对象划分为一类,但是并不是所有的聚类算法的实现都能产生相同的聚类结果;并且K均值算法的结果很大程度上依赖它的初始中心的选择;提出了一种新颖的关于K均值初始中心选择的策略;该算法是基于反向最近邻(RNN)搜索,检索一个给定的数据集,其最近的邻居是一个给定的查询点中的所有点;使用这种方法计算初始聚类中心结果发现是非常接近聚类算法所需的迭代聚类中心;对提出的算法应用到K均值聚类中给予了证明;用几种流行的数据集的实验结果表明了该算法的优点。  相似文献   

20.
针对度量空间中的无索引空间数据库,提出一种基于最优点的集合最近邻查找算法及其改进算法.采用真实数据集与人工生成的数据集对算法进行测试,评估所提出算法的效率.实验结果表明,所提算法的效率优于组最近邻居查询算法,并且对于高维数据空间,所提出的算法有较高的稳定性.由于查询区域中数据点的数量比较少,改进的基于最优点的集合最近邻...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号