期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于加权Fisher模糊判别准则的真彩色影像分类方法研究 总被引：1，自引：0，他引：1

陈佳祥桂丹萍《集美大学学报(自然科学版)》2011,16(3):236-240

针对Fisher判别分类中,选取样本不平衡导致Fisher线性判别性能下降,提出了加权Fisher判别对类内散布矩阵进行修正的方法.同时,针对Fisher判别准则为阈值分类器,引入了一种新的Fisher模糊判别准则.该方法应用于无人机真彩色影像的道路、植被、裸土地分类,取得了较好的分类结果.并与传统Fisher方法进行... 相似文献

2.

增强Fisher判决的Bagging集成分类方法

乔石《太原科技大学学报》2009,30(6):476-479

提出了一种样本间的相似性度量方法,并将这种相似性度量信息附加到Fisher线性判别的类内、类间离散度矩阵,使得Fisher判决准则在使类内距离达最小、类间距离达最大的同时,也使类内相似度达最小、类间相似度达最大,获得比原始Fisher判别更好的投影矩阵.实验证明,与Bagging集成的Fisherface比较,该方法显示出更好的识别率. 相似文献

3.

基于模糊Bayes-Gauss判别法的遥感影像的聚类

颜军陈水利吴云东《集美大学学报(自然科学版)》2011,16(2):154-158

针对Fisher线性判别法和传统的Bayes判别方法在遥感影像聚类问题研究中存在的不足,提出一种以隶属度代替先验概率的模糊Bayes-Gauss聚类算法,并将此算法应用于真彩色(RGB)图像中的草地、道路、裸土地和建筑物的聚类.实验结果表明,本算法在聚类中与Fisher线性判别法和传统Bayes判别法相比,具有精确度较... 相似文献

4.

基于主成分分析的核Fisher判别方法在油水识别中的应用 总被引：8，自引：0，他引：8

徐正光王淑盛刘冀伟王志良史立峰《北京科技大学学报》2005,27(1):126-128

根据测井数据结构复杂和交集严重的特点,将主成分分析思想应用到剔除奇异点和寻找两类样本的交集中,并在交集中应用核Fisher判别方法,进行油水判别,弥补了Fisher线性判别方法的不足.通过将主成分分析和核Fisher判别方法这两种理论有机的结合起来,提高了利用测井数据识别油水层的鉴别能力,实际应用中证明了本方法的实用性和有效性. 相似文献

5.

基于最大平衡度的自适应随机抽样算法

董立岩王越群李永丽朱琪《东北大学学报(自然科学版)》2018,39(6):792-796

针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力. 相似文献

6.

面向不平衡数据集的线性分类方法研究

殷士勇《重庆工商大学学报(自然科学版)》2010,27(5)

近年来,面向不平衡数据集的分类器学习与推广问题越来越受到人们的关注,在此以机器学习数据库、美国邮政编码、2维元音等国际上典型的分类问题为应用背景,重点研究如何用线性分类器解决样本数不平衡的问题;对Fisher、伪逆和单层感知器等3种典型的线性分类器做了深入的研究,并将这3种线性分类方法应用到不平衡数据集的分类中;通过实验及分析,这些新方法对平衡数据集的线性分类起到了良好的分类效果。相似文献

7.

面向非平衡数据的大间隔近邻Relief算法

程凤伟常浩《山西大学学报(自然科学版)》2022,(4):1014-1022

Relief算法对于数据重叠区域的样本分类较为困难,通过人为剔除分类边界的样本来缓解干扰数据对于分类性能的影响。在非平衡数据中,重叠区域包含着为数不多的少数类样本,简单地剔除干扰数据可能会造成信息的丢失。针对这一问题,文章提出了一种面向非平衡数据的大间隔近邻Relief算法,该算法首先结合K-means,提供了两种多数类样本的欠采样方案,以获得较为平衡的新采样数据集。然后利用SVM计算新数据集中最具判别性的方向,并依此设计了一种基于大间隔的近邻计算方式,从而尽可能避开干扰数据。在6个非平衡数据集上的实验表明,在现有代表性算法的基础上,文章提出的算法仅利用31%～57%数量的特征即可达到相当或更高的分类性能。相似文献

8.

基于改进Fisher判别的起步工况驾驶风格研究

金辉吕明《北京理工大学学报》2020,40(3):262-266

以实验采集的起步工况驾驶数据为基础,利用PCA分析筛选出驾驶员在起步工况下的风格特征参数,采用GMM聚类算法对起步工况下的驾驶数据进行分析.以驾驶风格聚类分析结果为基础建立了基于Fisher判别的驾驶风格识别方法模型,运用经典和改进Fisher判别对驾驶风格数据的测试集进行识别.结果表明,改进Fisher判别的识别正确率可达85%以上,证明了改进Fisher判别在处理驾驶风格会影响车辆的多种性能表现时有效,具有较高的准确性. 相似文献

9.

AUCBoost算法处理不平衡分类问题

李跃波王丽珍《云南大学学报(自然科学版)》2007,(Z2)

在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法. 相似文献

10.

基于协同进化机制的欠采样方法

翟云杨炳儒王树鹏张德政安冰《北京科技大学学报》2011,33(12):1550-1557

针对非平衡数据集分类中＂少数类样本精度难以提高＂这一瓶颈问题,提出了一种基于协同进化机制的欠采样方法.此方法将少数类样本与多数类样本划分为两类种群,采用种群协同进化原理,利用提出的动态交叉变异算子自适应协同进化过程,实现种群间自动调节和自动适应.仿真试验结果表明,此采样方法增强了局部随机搜索能力,改善了种群的分布特性,加强了算法的全局收敛能力,在不降低多数类样本分类性能的基础上有效提高了少数类样本的精度.与其他经典重采样方法相比,本文办法抗噪能力好,具有更强的鲁棒性. 相似文献

11.

一种基于级联模型的类别不平衡数据分类方法 总被引：6，自引：0，他引：6

刘胥影吴建鑫周志华《南京大学学报(自然科学版)》2006,42(2):148-155

真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下. 相似文献

12.

基于加权支持向量机的膜蛋白类型预测中不平衡问题处理

刘国平姚莉秀杨杰王猛《上海交通大学学报》2005,39(10):1676-1679,1684

针对膜蛋白类型预测中普遍存在的不平衡样本问题,分析一般支持向量机（SVM）在处理不平衡样本时的缺陷,引入加权SVM来补偿由于训练集中的类别差异引起的分类结果偏向于多样本类别的问题．采用统计预测中的一致测试、交叉校验和独立测试方法进行测试．实验表明,不平衡处理后的效果非常理想,该方法可以成为现有方法一个有效的补充分析工具．相似文献

13.

面向不平衡数据集的一种精化Borderline-SMOTE方法 总被引：2，自引：0，他引：2

杨毅卢诚波徐根海《复旦学报(自然科学版)》2017,56(5)

合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性. 相似文献

14.

一种基于类不平衡学习的情感分析方法

李芳曲豫宾陈翔李龙杨帆《吉林大学学报(理学版)》2021,59(4):929-935

针对网络评论中普遍存在的负面评论较少而影响力却较大的类不平衡问题, 提出一种基于类不平衡学习的情感分析方法. 该方法利用深度学习训练过程中的概率输出, 以计算样例的信息熵作为影响因子构建交叉信息熵损失函数. 在IMDB公开数据集上进行实验验证的结果表明, 基于集成信息熵损失函数的双向长短期记忆网络能处理类不平衡问题; 对数据的统计分析结果表明, 该策略能提升基于双向长短期记忆网络的评论情感极性分类性能. 针对AUC(area under curve)指标, 使用集成信息熵损失函数的双向长短期记忆网络模型比未考虑类不平衡的深度学习模型在中位数上最多提升15.3%. 相似文献

15.

面向不平衡数据的逻辑回归偏标记学习算法

周瑜顾宏《大连理工大学学报》2017,57(2):184-188

偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度. 相似文献

16.

Entire Solution Path for Support Vector Machine for Positive and Unlabeled Classification

姚利敏唐杰李涓子《清华大学学报》2009,14(2):242-251

Support vector machines(SVMs)aim to find an optimal separating hyper-plane that maximizes separation between two classes of training examples(more precisely,maximizes the margin between the two classes of examples).The choice of the cost parameter for training the SVM model is always a critical issue.This analysis studies how the cost parameter determines the hyper-plane;especially for classifications using only positive data and unlabeled data.An algorithm is given for the entire solution path by choosi... 相似文献

17.

不均衡数据集中KNN分类器样本裁剪算法

苟和平《科学技术与工程》2013,13(16):4720-4723

针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。相似文献

18.

利用主动学习改进遥感图像单类分类: 以正类和未标记样本学习方法为例 总被引：1，自引：0，他引：1

孙熠李培军《北京大学学报(自然科学版)》2020,56(1):155-163

针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题, 以正类和未标记样本学习(PUL)为例, 研究如何利用主动学习选择训练样本, 以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类, 直到获得稳定的分类精度, 然后利用主动学习选择和增加最有用(informative)的正类或负类样本, 用于PUL分类。结果表明, 当利用足够多的随机选取的正类样本得到稳定的分类精度后, 利用主动学习选择和增加正类样本可以提高分类精度; 利用主动学习的同时加入正类和负类样本, 可以得到比只加入正类样本更高的分类精度; 将利用主动学习得到的正类样本经相似性筛选后得到的正类样本, 分类精度与直接利用主动学习选择的样本相似, 但达到同样精度时需要更少的样本。因此, 利用主动学习选择和增加样本可以有效地改善单类分类的精度。相似文献

19.

基于熵权法集成异质分类器的窃电检测

孙园王珅黄冬梅胡伟胡安铎孙锦中房岭峰《科学技术与工程》2023,23(15):6455-6464

针对传统检测模型仅通过单一方法进行窃电检测具有局限性且用电数据中存在类不平衡的问题,从集成学习的角度出发,本文提出一种基于熵权法融合异质分类器的窃电检测模型。首先,通过少数类样本合成过采样技术（synthetic minority oversampling technique,SMOTE）处理用电数据不平衡的问题,其次综合考虑个体分类器之间的多样性以及各自的检测性能和训练机理进行基分类器的优选,最后,引入信息熵的概念,基于各个基分类器分类结果的分散程度,计算其权重占比,并以该权重占比集成各基分类器的输出。实验结果表明,对比传统的窃电检测模型,本文所提模型在多项评价指标下表现较好,具有良好的检测性能。相似文献

20.

New feature extraction in gene expression data for tumor classification

HE Reny CHENG Qiansheng WU Lianwen YUAN Kehong 《自然科学进展(英文版)》2005,15(9):861-864

Using gene expression data to discriminate tumor from the normal ones is a powerful method. However, it is sometimes difficult because the gene expression data are in high dimension and the object number of the data sets is very small. The key technique is to find a new gene expression profiling that can provide understanding and insight into tumor related cellular processes. In this paper, we propose a new feature extraction method based on variance to the center of the class and employ the support vector machine to recognize the gene data either normal or tumor. Two tumor data sets are used to demonstrate the effectiveness of our methods. The results show that the performance has been significantly improved. 相似文献