首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 149 毫秒
1.
基于几何边界的分类方法是一种典型的智能分类方法,已有的一些方法不仅忽略数据的分布特性,而且没有考虑不同样本对分类结果的影响,因而分类精度有待于进一步提高.鉴于此,受磁极效应启发,该文提出一种新颖的融合磁极效应和数据分布特征的最大间隔学习机.该模型构造的分类超平面距离一类尽可能近,而距离另一类尽可能远,尽量地将这2类分开.该模型利用类内离散度和类间离散度来刻画数据分布特征,以期在分类决策时将数据的分布形状考虑在内.此外,模糊隶属度的引入突出了不同样本对分类结果的影响.在UCI标准数据上的比较实验表明该方法是有效的.  相似文献   

2.
对于数值型数据而言,邻域粗糙集模型是处理不确定信息的有效工具.现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息.针对邻域粗糙集的这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了一种基于极大相容块的邻域粗糙集模型.该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域.运用前向贪婪策略构建了相应的属性约简算法.在七个公开的UCI数据集上的对比实验验证了提出模型的有效性.  相似文献   

3.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

4.
特征选择是一项重要的数据预处理技术,其目的是在不降低数据分类精度情形下选择一个特征子集,从而对原数据集达到降维的效果,同时也提高学习算法的性能.在邻域粗糙集模型中,传统方法构造出的对象邻域粒未考虑数据的分布问题,使得邻域粒存在一定的误差.首先通过方差来刻画数据的分布,然后根据数据分布提出一种改进的邻域粒,这种改进的邻域粒能够自适应数据的分布,有着较好的优越性,最后将改进邻域粒与邻域模糊熵结合,提出一种特征重要度的评估方式,并给出对应的特征选择算法.实验结果表明,新提出的特征选择算法在特征选择结果、时间消耗和特征子集的分类精度方面都更具一定的优越性.  相似文献   

5.
针对模糊支持向量机(FSVM)应用于数据挖掘分类中存在对大样本集训练速度及分类速度慢的缺点,提出一种改进的数据挖掘模糊支持向量机分类算法.该算法首先预选有效的候选支持向量缩减训练样本集的规模提高训练速度;其次提出一种新的模糊隶属度函数,增强支持向量对构建模糊支持向量机最优分类超平面的作用,并用经过预选的训练样本集进行训练FSVM得到支持向量集;最后,运用粒子群优化算法选择最优支持向量子集,使用平均分类误差作为适应度函数,最终粒子输出时,将样本隶属度与设定阈值相比较,选择出支持向量集中相对较大隶属度的样本作为新的支持向量,提高分类速度.实验结果表明,该算法在不损失分类精度的情况下,提高了模糊支持向量机的训练速度和分类速度.  相似文献   

6.
全连接神经网络需要大量的数据支持,才能训练好一个分类网络,往往现实中没有提供大量的数据供给网络训练。针对全连接神经网络缺少数据训练会使网络分类效果不佳这个问题,研究粒计算理论,从不同角度增广数据并进行粒化,提出一种全连接粒神经网络的分类方法。首先,该网络对所有样本进行单特征参照样本相似度粒化,形成参照样本粒子。同时引入邻域判别函数进行邻域粒化,形成邻域粒子。一个样本上的多个特征粒子构成一个粒向量,将构造的粒向量输入到该网络进行分类,进而提出了全连接粒神经网络。在多个UCI数据集上实验,用全连接粒神经网络和不同的分类算法进行比较,其结果表明了所提出的全连接粒神经网络分类方法的正确性与有效性。  相似文献   

7.
为了提高遥感图像分类精度,提出一种模糊均值聚类(FCM)和最小二乘支持向量机(LSSVM)相融合的遥感图像分类方法(FCM-LSSVM).首先对遥感图像样本进行模糊均值聚类,得到隶属度矩阵,然后根据隶属度矩阵选择遥感图像的训练样本,最后将训练样本输入到最小二乘支持向量机进行学习,并采用粒子群优化最小二乘支持向量机参数,建立遥感图像分类模型.通过仿真实验对算法性能进行测试,结果表明FCM-LSSVM提高了遥感图像分类效率和分类精度.  相似文献   

8.
KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销.  相似文献   

9.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

10.
近些年,基于深度学习的算法和模型在各种图像分析任务中都取得了显著的成功,与常见的自然图像相比,医学图像数据集依然面临高度不平衡的问题,不平衡数据会导致特征空间里的决策边缘倾向样本多的类别,导致分类效果的下降.为了解决该问题,提出一种基于卷积神经网络考虑特征类内紧凑性的不平衡医学图像分类方法(Z-Score Compactness-based Convolutional Neural Network,ZC3NC).首先,从一个卷积神经网络的最后一层卷积层提取训练集样本与测试集样本的特征图,随后引入一个新的Z分数来度量测试集数据的特征图相对训练集每个类在特征空间上的偏离度,偏离度的度量基于类内的紧凑度,其主要关注样本的分布特性,对各类样本数量的不平衡性不敏感.最终,根据计算的偏离度,对测试集的数据进行分类.在DermaMNIST数据集上的实验表明,在不对数据和神经网络模型做任何额外增强的情况下,该方法的平衡准确率比原卷积神经网络模型平均提高11.15%,最多提高14.08%,证明提出的分类方法能有效地提高多种卷积神经网络对不平衡医学图像数据的分类性能.此外,和最先进的不平衡分类方法 Und...  相似文献   

11.
基于知识发现中的局部异常因子思想, 提出一种基于局部密度比的模糊隶属度设置算法, 该算法根据样本的邻域密度比设置样本的隶属度, 并采用一种单参数选择策略. 数值实验表明, 所提出的算法在带噪声的非线性函数估计方面具有很好的鲁棒性, 有效地解决了模糊支持向量机中的模糊隶属度设置问题, 对处理带噪声的分类和非线性函数估计问题具有重要的意义.  相似文献   

12.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

13.
提出一种基于两步特征加权的模糊支持向量机算法.首先,利用信息增益算法获取样本的特征权重.然后,计算最大权重的特征与其他特征间的斯皮尔曼相关系数,并将二者相乘后再与原有的特征权重相加,得到新的特征权重,减少弱相关和不相关特征对分类造成的影响.最后,在设计样本模糊隶属度时,不仅考虑样本与类中心的距离,还引入了样本间的亲和度,并将二者进行融合,以此减弱样本分布不均对分类精度的影响.在UCI数据集上的实验表明,与现有流行的几种模糊支持向量机算法相比,所提算法在准确率和F1值上得到了提升.  相似文献   

14.
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗...  相似文献   

15.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

16.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

17.
模糊支持向量机中隶属度确定的新方法   总被引:4,自引:1,他引:3  
针对目前模糊支持向量机方法中,一般使用样本与类中心之间的距离关系构建隶属度函数的不足,提出一种改进的隶属度确定方法.该方法不仅考虑样本与类中心之间的关系,还考虑样本之间的关系根据样本的类中心与传统支持向量机构造的分类面构建2个超球,由样本点与超球的位置关系计算其隶属度,能够有效地区分样本点、噪音点以及孤立点.通过文本分类实验表明,与其他两种隶属度函数方法相比,基于双超球的模糊支持向量机方法可以更有效地将文本训练集中的噪音剔除,具有较好的分类性能.  相似文献   

18.
针对实际模式识别系统中样本特征常具有的连续值属性、高维性、强相关性和冗余性等影响分类效果的问题,在广义邻域粗集模型下提出一种集成特征选择及其选择性集成算法.该算法先提取样本特征并利用所提出的马氏距离分布熵评估其重要度,再基于特征重要度构建广义邻域粗集模型,并在此模型上以特征重要度为启发式信息设计基于蚁群算法的属性约简算法,然后通过改变广义邻域粗集模型参数的方式获得更多具有更大差异性的基分类器,最后利用主成分分析法对产生的基分类器进行选择性集成.模拟电路故障诊断结果表明,该算法比AdaBoost等算法取得的分类精度至少提高了2.6%.  相似文献   

19.
Dubois粗糙模糊集中,上、下近似集的隶属度分别由等价类中元素隶属度的上、下确界来确定,由于没有充分反映出等价类中隶属度介于上、下确界之间的那些元素的作用,在信息处理中不免造成这些元素信息的丢失.为此提出一种新的粗糙模糊集近似算子的表示方法,该方法能够涵盖等价类中所有元素的隶属度.阐述了该方法在信息处理中的合理性,给出了相应的代数性质;在此基础上重新定义了粗糙模糊隶属函数;给出新算子下近似分类的精度、分类质量、属性的依赖度及基于依赖度的属性约简算法;最后用实例说明了算法的有效性.  相似文献   

20.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号