首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
提出一种最近邻分类的改良模型,综合考虑待分类数据的k近邻、所属的簇和整个训练数据集的类分布,充分利用局部、部分和全局三种类分布信息,从而具有抗噪声的性能.实验表明,提出的最近邻分类改良模型具有较好的抗噪声鲁棒性,而且分类的准确率明显高于传统的kNN分类算法.  相似文献   

2.
黄丽萍  余翀翀 《科技信息》2012,(7):201-201,210
针对非平衡数据集的分类问题,本文提出在欠采样法的基础上使用分类集群的改进方法,以提高非平衡数据集中对少数类的分类的正确率。通过实验表明,该方法可行有效。  相似文献   

3.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

4.
运用模式识别和数理统计的基本原理。研究了多类分类模式识别系统识别的K指标评鉴标准.通过构造一个分类结果的统计量,分析了K指标的点估计、区间估计的计算方法。给出由指标K的点估计值、区间估计优化分类参数的算法,提出一种优化过程的统计学习方法.  相似文献   

5.
基于改进分类模型的文本分类系统实现   总被引:1,自引:0,他引:1  
提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类.针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类.通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的.  相似文献   

6.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

7.
针对高分辨率极化SAR数据特征分布不再符合同质区域假设, 进而导致基于统计分布的极化SAR影像非监督分类方法精度下降的问题, 将具有广泛适用性的KummerU分布嵌入粒子群寻优聚类算法, 提出了新的极化SAR影像非监督分类算法(PSO-KummerU方法):首先基于极化SAR统计特征对数据进行初分类, 然后采用极化SAR统计特征与粒子群优化算法进一步进行聚类中心求解, 分类准则部分采用KummerU距离改进代替传统的Wishart距离度量准则; 采用3种非监督分类方法(H/α-Wishart、PSO-Wishart、PSO-KummerU方法)进行分类对比实验.实验结果表明:基于KummerU分布的PSO-KummerU方法与采用Wishart距离的聚类方法相比, 目视效果明显改进, 整体分类精度提高14%以上.  相似文献   

8.
空间分类既要考虑待分类对象的非空间属性,还要考虑其空间邻接对象非空间属性对分类的影响.提出一种基于多关系的朴素贝叶斯空间分类算法,算法将多关系分类方法用于空间分类,考虑了不同近邻对象的非空间属性对分类产生的影响,其分类准确率高于单关系朴素贝叶斯空间分类算法.算法可以用于空间数据库中的大数据集,不需要复杂的数据预处理.  相似文献   

9.
基于一类分类方法的多类分类及其应用   总被引:1,自引:0,他引:1  
在分析一种非线性数据处理新方法的核心概念基础上,研究了基于一类分类方法的多类分类基本原理,提出了应用于多类分类的可信度函数,使聚类与分类的结果更具有可信度.最后,以某企业对供应商关系的调查数据为例,将这种方法应用于企业商业关系网络分析中.结果表明了该方法的有效性.  相似文献   

10.
数据挖掘中分类问题一直是数据挖掘领域中研究的热点问题,先后提出了各种分类算法;其中遗传算法被认为是一种高效的分类算法.但是,传统的GA存在着易于陷入局部最优,致使得到的分类规则概括性不强的问题.提出了一种基于非随机初始种群的遗传算法分类规则挖掘算法.算法利用均匀种群方法生成非随机的初始种群,并通过均匀算子确保连续迭代过程中种群的多样性,从而达到防止GA早熟的目的.采用两个标准的公共领域的数据集验证了算法的有效性.实验结果表明,该算法能消除遗传算法在分类挖掘任务中收敛于局部最优的局限性,且能快速挖掘出易于理解的分类规则,提高对知识的理解力.  相似文献   

11.
本文从图书分类的重要性,十二大类的书目分类体系,图书分类的原则三个方面阐述了郑樵的图书分类思想。  相似文献   

12.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

13.
对随机近邻分类方法做了深入的研究 ,采用了随机近邻判决准则 ,对一事例数据进行了计算 ,并与多元系统聚类得出的结果进行对比 ,显示出随机近邻分类方法具有较好的非线性、非球形分类的特点 ,值得进一步推广应用  相似文献   

14.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

15.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

16.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

17.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

18.
常见的决策树分类算法、贝叶斯分类算法、神经网络分类算法为数据挖据分类算法研究提供了重要基础。但面对海量数据时,在时间效率、鲁棒性和精确性上都显示出了不足。为此,本文将模糊聚类的思想引入到神经网络分类算法中,首先通过模糊聚类子模型,将样本数据聚为几个数据子集,然后再采用不同的神经网络对各个数据子集同时进行训练学习。由于经过了模糊聚类子模型的预处理,每个神经网络训练学习样本的复杂性大大减少,使神经网络的学习效率大大提高。最后通过UCI下的实际数据库,对提出的分类算法进行了检验,结果显示了基于模糊聚类的神经网络在数据挖掘分类中应用的有效性。  相似文献   

19.
文章提出一种融合互近邻和可信度的K近邻算法,根据互近邻的概念删除噪声数据;利用由近邻诱导待分类样本标签的可信度,避免待分类样本近邻中大类吃小类的概率。该算法不仅可以减小噪声数据对分类的影响,而且一定程度上增强了K近邻分类算法的稳定性。该算法在UCI标准数据集上进行了测试,性能相当或优于其他分类器。  相似文献   

20.
用聚类-分类模式解决聚类问题   总被引:2,自引:2,他引:2  
分类和聚类都是常用的数据挖掘方法,分类的优点是准确率较高,但需要带有类别标注的训练集;聚类不需要训练集,但准确率较低。提出一种聚类-分类模式来解决聚类问题,首先通过聚类方法自动形成训练集,然后在训练集的基础上进行分类操作。实验数据表明,提出的聚类-分类模式能够有效提高聚类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号