首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

2.
针对自动睡眠分期任务,提出了一种基于正态逆高斯和特征贡献度的睡眠分期实验框架.提取睡眠脑电信号特征,并对信号进行可调Q因子小波分解(TQWT),针对TQWT子带提取正态逆高斯参数特征;基于SVM模型实现特征贡献度排序与筛选,针对高贡献度特征,比较多种分类器的分期结果并设计多分类器组合自动睡眠分期算法.采用PhysioBank的Sleep-EDF数据集进行验证,取得了89.88%的平均睡眠分期准确率,相较于单一分类器的分期准确率有较大提升,对睡眠障碍的临床诊断与研究具有较大价值.   相似文献   

3.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

4.
针对现有的基于机器学习的入侵检测系统对类不平衡数据检测准确率低的问题,提出一种基于条件Wasserstein生成对抗网络(CWGAN)和深度神经网络(DNN)的入侵检测(CWGAN-DNN).CWGAN-DN N通过生成样本来改善数据集的类不平衡问题,提升对少数类和未知类的检测效率.首先,通过变分高斯混合模型(VGM)对原始数据中的连续特征进行处理,将连续特征的高斯混合分布进行分解;然后利用CWGAN学习预处理后数据的分布并生成新的少数类数据样本、平衡训练数据集;最后,利用平衡训练集对DNN进行训练,将训练得到的DNN用于入侵检测.在NSL-KDD数据集上进行的实验结果表明:利用CWGAN生成的数据进行训练,DNN的分类准确率和F1分数提升了5%,AUC下降了2%;与其他类均衡方法相比,CWGAN-DNN的准确率至少提升了3%、F1分数和AUC提升了1%.  相似文献   

5.
针对小微企业信用历史数据规模较小,而且类别不平衡问题较为严重,提出基于样本依赖代价矩阵的Smote XGboost-Bayes Minimum Risk(SXG-BMR)模型,对整体样本进行低倍率过采样,以弱化类别不平衡问题,降低模型过拟合的风险;模型将集成学习模型与最小风险贝叶斯决策相结合,以实现代价敏感。同时,模型中引入了样本依赖的代价矩阵,该代价矩阵不仅与类别有关,而且与样本自身属性有关,可以更为准确地表征代价。使用标准信用数据集和上海市小微企业信用数据集,进行多种算法的对比分析,结果表明,该模型性能优良。  相似文献   

6.
针对目前睡眠脑电数据的标记仍以专家评判为主,导致数据标记不足,以及影响睡眠状态自动评估的不同阶段睡眠脑电数据类不平衡等问题,提出了一种基于生成式对抗网络(generative adversarial network,GAN)的数据增强模型,用以扩充不同睡眠阶段的脑电数据.通过引入Huber函数来改进辅助分类器生成式对抗网络(auxiliary classifier GAN,ACGAN)模型的损失函数,解决数据模糊等品质问题.该模型无须对数据进行特征提取,其生成和判别网络都采用一维卷积神经网络(one-dimensional convolutional neural network,1D-CNN),并以一维噪声和类别向量为生成器输入信号.分别采用手写体数字图像数据集与睡眠脑电数据集评估该模型的性能.将改进前的模型与其他损失函数模型进行了对比试验,结果表明改进模型的数据增强效果与睡眠分期效果,从可视化评估到定量评估均优于其他模型.研究结果以期为深度学习引入睡眠脑电分析中提供一种行之有效的方法.   相似文献   

7.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

8.
针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势.  相似文献   

9.
针对人体活动传感器数据的时序性特点,以及当前机器学习算法过度依赖手工特征提取的问题,提出了一种融合卷积神经网络和双向长短期记忆网络的深度学习模型(CNN-BiLSTM)进行人体活动识别(HAR)。首先对人体活动数据进行样本分割,然后采用卷积神经网络(CNN)自动提取人体活动数据的特征,再通过双向长短期记忆网络(BiLSTM)学习人体活动数据特征在时间序列上前后两个方向的相关性,最后利用softmax分类器实现对人体活动分类。DaLiAc公开数据集上的仿真实验结果表明,基于CNN-BiLSTM网络的人体活动识别方法对13种人体活动的识别准确率达到了97.7%,与仅具备时间特征学习的LSTM网络和BiLSTM网络相比,具有更好的识别分类效果。  相似文献   

10.
不平衡数据集广泛存在,对其的有效识别往往是分类的重点,但传统的支持向量机在不平衡数据集上的分类效果不佳.本文提出将数据采样方法与SVM结合,先对原始数据中的少类样本进行SMOTE采样,再使用SVM进行分类.人工数据集和UCI数据集的实验均表明,使用SMOTE采样以后,SVM的分类性能得到了提升.  相似文献   

11.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

12.
为了研究整夜睡眠状况和睡眠过程, 利用多导睡眠仪(polysomnography, PSG)和体动记录仪, 分别记录被试的ECG信号和体动信号, 再对 ECG信号提取心率变异性(heart rate variability, HRV)的特征值, 并将其作为实验数据的特征参数。为了提高识别率和防止过度拟合, 将实验数据分为训练集和测试集, 设计一个用遗传算法改进的BP神经网络模型, 对样本进行训练和预测。研究结果表明, 改进的BP神经网络能有效地识别测试样本, 综合识别准确率为86.29%。将检测ECG信号和体动信号的穿戴式设备与睡眠分期识别算法相结合, 能够用于家庭睡眠监测, 也可作为睡眠疾病的初筛方法。  相似文献   

13.
贺凤      张洪博      杜吉祥      汪冠鸿     《华侨大学学报(自然科学版)》2020,(6):808-815
提出一种长短时记忆网络的自由体操视频自动描述方法.在视频描述模型S2VT中,通过长短时记忆网络学习单词序列和视频帧序列之间的映射关系.引入注意力机制对S2VT模型进行改进,增大含有翻转方向、旋转度数、身体姿态等关键帧的权重,提高自由体操视频自动描述的准确性.建立自由体操分解动作数据集,在数据集MSVD及自建数据集上进行3种模型的对比实验,并通过计划采样方法消除训练解码器与预测解码器之间的差异.实验结果表明:文中方法可提高自由体操视频自动描述的精度.  相似文献   

14.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

15.
岩性识别对地质勘查和储层评价具有重要意义,科学有效地开展岩性自动识别的相关研究能够有效地为勘查过程提供指导,减少工作的盲目性和冗杂性。针对常见的砂岩地层,选择三类砂岩,基于室内微钻试验台,设计钻杆转速、钻孔深度和钻孔位置三个变量,检测钻进过程中产生的振动和声音特征信号。将采集的振动和声音信号预处理,提高信噪比,生成数据集。将振动和声音的数据集按6∶2∶2的比例划分为训练集、验证集和测试集,之后分别构建二维卷积神经网络和一维卷积神经网络并使用训练集和验证集训练岩性识别模型,最后运用未经训练的测试集验证模型准确率。模型训练完成后,以频谱图为数据集的振动信号识别模型准确率达到95.19%,以梅尔频率倒谱系数为数据集的声音信号识别模型准确率达到73.58%。研究结果表明,不同岩性在钻进过程中产生的振动和声音信号具有不同信号特征,基于振动和声音信号的岩性自动识别方法可以较好地实现几类砂岩的自动识别,这为地质勘查时的岩性自动识别提供了参考与依据。  相似文献   

16.
基于CSP与卷积神经网络算法的多类运动想象脑电信号分类   总被引:1,自引:1,他引:0  
针对直接利用卷积神经网络(convolutional neural network,CNN)算法对多类运动想象脑电信号分类识别时,因样本量比较少,难以充分训练权值,导致分类效果较差的问题,结合一对多CSP算法与CNN算法对多类运动想象脑电信号进行特征提取与分类。首先,利用CSP算法对多类运动想象脑电信号进行特征提取,形成一维特征数据,作为CNN的输入样本;其次,对传统二维输入样本的CNN结构进行改造,使其适应一维数据的输入样本,对输入样本进行再次特征提取并分类;最后,使用BCI2005desc—Ⅲa的K3b数据进行算法验证;并对不同参数值的确定进行了讨论。算法验证结果表明,单独利用一对多CSP算法得到的分类正确率73%,单独使用CNN算法得到正确率为75%,新算法取得了91.46%的正确率,相比两种原始方法有较大提升。  相似文献   

17.
为解决EEG自动检测的错误率非常高的问题,提出了一种基于深层卷积神经网络(CNN)对脑电图进行异常检测的方法:首先,对多个异构数据源按标准进行重构和预处理,生成了有118 716个样本的训练集和有12 022个样本的测试集;然后,构建有快捷连接的深层CNN模型,以自动化学习ECG特征并进行分类识别; 接着,将模型在训练集上进行试验与调参,保存了性能最好的模型参数; 最后,在测试集上进行预测.预测结果显示该模型达到了94.33%的分类准确率.通过所提方法对脑电信号进行处理与分析,能够自动提取EEG特征并进行异常识别,从而达到快速检测与辅助诊疗的目的.  相似文献   

18.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失, 并导致精度下降的问题, 提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型. 该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制, 利用随机森林算法对隐藏层状态的优化实现改进, 从而解决了降维过程中神经网络丢失数据特征的问题. 在借贷客户信息数据集上的实验结果表明, 该模型在保证主要特征的同时大幅度提升了预测准确率, 证实该模型在特征工程中具有较高的实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号