首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

2.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

3.
列举了有关基于聚类融合的不平衡数据分类的办法,可以解决少数类的识别率很低,利用传统分类手段予以解决.利用此种方法能够发现,引入少数类边界区域与在多数类核心当中的样本聚类一致性系数,并且分别对欠抽样方法对少数类与多数类的训练集.  相似文献   

4.
针对不平衡数据集中少数类样本分类识别率较低的问题,提出一种基于代价敏感卷积神经网络(cost sensitive convolutional neural network,CSCNN)和AdaBoost的分类算法(classification algorithm based on cost sensitive conv...  相似文献   

5.
当训练集中各个类别的样本分布不均匀且存在数据稀疏问题时,朴素贝叶斯算法分类不够准确。针对此问题,提出了一种基于数据平滑与加权补集的朴素贝叶斯文本分类算法,该算法引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率,克服数据稀疏问题;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。实验结果表明,在样本集分布不均衡时,该算法比传统的朴素贝叶斯分类算法分类效果更好。  相似文献   

6.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

7.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

8.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

9.
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集成算法. 该算法利用频繁模式挖掘的原理,将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储分类结果,然后从中挖掘频繁基分类器组成最终的集成分类器,达到选择性集成的目的. 实验结果表明,与集成分类算法Bagging、AdaBoost、WAVE 和RFW 相比,该算法减小了集成分类器的规模,提高了集成分类器的分类精度和分类效率.  相似文献   

10.
基于数据挖掘与机器学习的蛋白质疏水性分析的研究   总被引:1,自引:0,他引:1  
蛋白质的疏水性对蛋白质的稳定性、构象和蛋白质功能具有重要意义,通过数据挖掘中的机器学习算法实现了将一个数据集中已知疏水性的多个蛋白质样本数据,分配给具有特征值的各个目标类.将这些已知其特定类归属的数据作为KNN,LR,决策树,SVM四类分类器的训练集,利用这些已知数据训练后的分类器来处理未知疏水性的蛋白质数据,最终判断该数据的分类.该算法对蛋白质疏水性的预测,其准确率可达90%以上.  相似文献   

11.
结合光谱解混的高光谱图像异常目标检测SVDD算法   总被引:4,自引:0,他引:4  
  相似文献   

12.
针对Stacking算法计算时间较长和样本数据较少的问题,提出了一种基于新向量表示和交叉验证精度加权的改进Stacking算法。采用三层算法结构,第1、2层为初级层,使用随机森林、SVR、XGBoost 3个学习器;第3层为次级层,使用LightGBM对第2层输出再次学习以减弱噪声。用一种新的向量表示法来增大层级之间输入输出数据的样本规模和样本分布密度,来保证数据维度不会随着初级层学习器数目的增多而增大;根据在交叉验证下初级层不同预测模型表现出预测准确度的差异性对结果进行加权处理。利用某光伏电站的发电数据进行实际算例分析,提出的模型在MAE、MSE及$R^2$指标上,相比随机森林和Stacking等模型其预测性能有很大的提升。  相似文献   

13.
目标判别跟踪方法一般以单一跟踪结果(正样本)和部分负样本训练分类器,并只用单一的特征描述目标,因此在目标发生遮挡、光照变化、形变等情况下很容易导致跟踪的失败. 为了克服单一正样本和单一特征训练的分类器导致跟踪不稳定的问题,提出一种基于支持向量机的多特征描述、多个正负样本进行分类器训练的目标跟踪方法,用训练分类器对所有候选粒子的不同特征进行判别和选择,并将具有最大置信概率的粒子确定为跟踪结果. 在跟踪过程中,利用子空间学习的方法实现正样本的更新,并以更新后的正负样本训练分类器. 实验结果表明,该方法在目标存在遮挡、光照变化、形变等情况下均可以取得较好的跟踪效果.  相似文献   

14.
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。  相似文献   

15.
传统的基于PCA-HOG特征的行人头部分类算法存在降维后的子空间鉴别性不足的问题.为此,提出一种基于分步降维HOG-LBP特征的行人头部分类算法.首先,利用样本类别标签构建2类样本的HOG特征集合,在这2类特征集合中分别执行PCA降维,然后将所得的特征与LBP纹理特征进行级联得到最终的头部描述算子,最后通过训练SVM分类器对实际样本集进行分类.实验结果表明,与传统PCA降维方法相比,该方法可有效提高行人头部的分类性能.  相似文献   

16.
预测算法在可逆水印隐藏中扮演重要角色。预测算法越好,得到的预测值就越精确,嵌入水印后的失真度就越低。为此,提出一种新的非因果音频预测算法。在预测之前,利用每相邻3个样本点之间的相关性计算出一个预测系数,再将这些预测系数进行统计平均得到最佳预测系数。根据每相邻3个样本点间的数值关系计算预测值和非整数预测误差。最后利用直方图平移技术嵌入水印信息。该算法利用了相邻3个样本点间的相关性,而且集合了非因果预测的优异性和音频信号本身的固有特性。测试了6个标准的音频文件,对比了已有同类可逆音频水印算法,该算法在预测性能和嵌入失真方面都更有优势。  相似文献   

17.
绝缘子自爆检测是无人机电力输电线路巡检的一项重要内容,准确、快速、自动寻找绝缘子自爆区域,能大量节省无人机巡检图像数据处理工作量,提高巡检的精度和效率。本文针对目前绝缘子自爆区域检测存在样本少、目标小且精度不高的问题,提出了一种融合深度学习的无人机巡检绝缘子自爆区域检测方法。该方法用大量绝缘子样本训练深度学习目标识别模型,在识别出绝缘子区域内利用计算机视觉方法对自爆区域进行检测。本文方法综合了深度学习检测复杂目标,以及计算机视觉无需大量样本且能够检测小目标的优点。实验表明:本文算法对缺陷的检测精度能够达到84.8%,对于绝缘子自爆检测具有积极的意义和应用价值。  相似文献   

18.
针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法。该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选。为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续亏损法、随机森林算法、BP神经网络算法、XGBoost算法进行比较。每个模型均训练50次,每次训练按一定比例随机选取数据,最终取各个指标的平均值作为最终实验结果。实验结果表明:所提出的决策树-逻辑回归模型对于僵尸企业的识别准确率最高,达到99.98%;并且模型的运行速度相对各种集成模型的速度有较大优势,平均执行时间约为1.5 s。在各实验环境中,实验结果差异较小,验证了该模型的有效性和稳定性。  相似文献   

19.
无人机拍摄的图像具有分辨率高、视野大以及目标小的特点,而现有的目标检测方法对小目标特征的提取能力不足。为此,首先采用以中心点表示目标的检测网络CenterNet,引入可变形双重注意力机制,以提高对小目标的特征表达能力;然后针对原始非极大值抑制难以处理嵌套型冗余框的问题,在冗余检测剔除过程中提出了广义非极大值抑制方法;最后引入LegoNet卷积单元,减少了卷积参数,实现了精度与速度的平衡。实验主要采用的验证数据集为VisDrone2019和UAV_OUC,UAV_OUC数据集相比于VisDrone2019,其图片具有更高的分辨率。相比于CenterNet,所提出的方法在数据集UAV_OUC和VisDrone2019上的检测精度大约分别提高了10%和2%。  相似文献   

20.
提出了基于进化高斯混合模型(EGMM)的说话人辨认系统建模方法.EGMM在进化算法的框架下,为改善模型的泛化性能对GMM模型的结构与参数共同进行了优化.同时,系统的优化目标中引入了其他用户的区分性信息以提高其分类精度.根据GMM的特点设计了专门的遗传算子并结合GA与EP提出了一种新的混合进化算法.初步实验结果表明,EGMM方法建立的说话人模型具有更强的泛化能力.在说话人辨认实验中,较之传统的GMM方法,基于EGMM的系统的正识率提高了近3%,并且模型具有更小的平均尺寸.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号