首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

2.
DNA 微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于粗糙集的支持向量机基因表达数据分类方法,该方法采用粗糙集进行基因特征约简,运用支持向量机进行数据分类,实验表明其分类效果良好.  相似文献   

3.
针对基因表达谱微阵列的数据多分类问题,给出一种在多病类情况下的基于信噪比和相关性的特征基因选择方法.该方法一次性考虑基因区分所有病类的能力,尽量避免基因的冗余性;其次利用支持向量机,构建了基因表达谱微阵列数据的多分类器;最后通过实验表明了本方法的有效性.  相似文献   

4.
魏峻 《河南科学》2015,(1):58-64
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.  相似文献   

5.
赵晚昭  谢聪 《广西科学》2022,29(2):260-268
针对现有基因微阵列数据分类中存在的数据维度高、容易发生过拟合的问题,提出了基于BTLBOGSA(Binary TLBOGSA)与卷积神经网络(Convolutional Neural Network, CNN)的基因微阵列数据分类模型(BTLBOGSA-CNN)。该模型首先针对基因微阵列数据分类时存在的数据维度高的问题,利用新的编码策略,将连续搜索空间转换为二元搜索空间,结合教与学优化(Teaching-Learning-Based Optimization, TLBO)算法的二元变体与引力搜索算法(Gravitational Search Algorithm, GSA)的各自特点,基于BTLBOGSA方法从基因微阵列数据集中选择具有高鉴别性的基因;然后针对基因微阵列数据分类易发生过拟合问题的现象,利用卷积神经网络进行基因微阵列数据的分类。利用公开的基因微阵列数据集进行仿真实验,从TLBO算法与GSA结合的有效性、BTLBOGSA与CNN结合的有效性、BTLBOGSA-CNN与其他已有分类模型相比的有效性3个方面进行对比分析,结果表明,BTLBOGSA-CNN模型可以在较少的特征基因下...  相似文献   

6.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

7.
基于CSP与卷积神经网络算法的多类运动想象脑电信号分类   总被引:1,自引:1,他引:0  
针对直接利用卷积神经网络(convolutional neural network,CNN)算法对多类运动想象脑电信号分类识别时,因样本量比较少,难以充分训练权值,导致分类效果较差的问题,结合一对多CSP算法与CNN算法对多类运动想象脑电信号进行特征提取与分类。首先,利用CSP算法对多类运动想象脑电信号进行特征提取,形成一维特征数据,作为CNN的输入样本;其次,对传统二维输入样本的CNN结构进行改造,使其适应一维数据的输入样本,对输入样本进行再次特征提取并分类;最后,使用BCI2005desc—Ⅲa的K3b数据进行算法验证;并对不同参数值的确定进行了讨论。算法验证结果表明,单独利用一对多CSP算法得到的分类正确率73%,单独使用CNN算法得到正确率为75%,新算法取得了91.46%的正确率,相比两种原始方法有较大提升。  相似文献   

8.
对于许多模式识别问题来说,特征选择是一个非常重要的数据预处理技术,这对于维数高,而样本又相对较小的微阵列数据来说更是如此.提出一种将粒计算与传统的SVM-RFE算法相结合的特征选择算法.这种算法能够有效地去除大部分与分类无关的基因;并且能够搜索到基因数量相对较少而分类能力相对较强的信息基因子集.  相似文献   

9.
针对矩阵数据降维或低秩逼近问题,提出了一种快速增量算法.假设矩阵数据存在双边分解,建立了两个相互耦合的特征子空间模型,因此增量算法由两个特征子空间的迭代更新构成.每一步迭代,新载入的矩阵数据沿着行(列)特征子空间进行正交分解,从而获得了行(列)协方差矩阵更紧致的表达.一旦该表达被建立,行(列)特征子空间的更新就可以通过解一个和矩阵数据的行(列)数相比更小规模的特征值问题来完成,算法的高效率得以实现.该算法被应用到人脸图像重构和人脸跟踪问题中,一系列实验表明了算法的有效性.  相似文献   

10.
针对基因表达数据高维、高噪声等特点,提出了一种基于正交约束的负矩阵分解算法;该算法将正交约束引入到β散度矩阵分解的准则函数中进行优化求解,用梯度下降方法得出矩阵分解的乘积迭代规则,并利用分解项来降低特征空间的维度,将得到的向量用于K均值聚类;实验中选择5种肿瘤基因表达数据,实验结果表明:改进的算法分解所得矩阵在聚类效果上明显优于其他的方法.  相似文献   

11.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

12.
一种有效的基因投影聚类算法   总被引:1,自引:0,他引:1  
针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法.该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角.通过真实微阵列数据实验,证明了提出的算法具有较高的正确率.  相似文献   

13.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率.  相似文献   

14.
提出一种改进的非负矩阵因子分解算法.在非负矩阵因子分解的迭代计算过程中加入了数据平滑处理来解决抖动问题,并用于一组白血病微阵列数据分析.实验结果表明,改进过的非负矩阵分解算法提高了分类的准确率,同时这个方法避免了NMF算法的“零值”问题.  相似文献   

15.
针对多平面支持向量机机器学习算法的分类性能受特征数量限制的问题,提出一种正交子空间支持向量机(orthogonal subspace support vector machine,OSSVM).首先为每类数据寻找一个正交子空间,使得该类数据和其他类数据在子空间中的投影存在较大间隔;然后基于迹比优化提出求解OSSVM模型的迭代算法,再利用核方法将OSSVM扩展为非线性模型.实验结果验证了本文算法在数据分类中具有良好的泛化性能.  相似文献   

16.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

17.
在区分肿瘤样本与正常样本的过程中,维数过多的基因表达数据会影响最终的分类结果.针对这一情况,在去除冗余基因的过程中,利用相关系数矩阵M构建强相关树,得到一种去除冗余基因的强相关树(Strong Correlation Tree,SCT)算法.实验结果表明,SCT算法能够去除更多的冗余基因,使最终的分类结果更加准确.  相似文献   

18.
为了在保持数据局部几何结构不变的同时使数据分类边界最大化,提出了一种用于分类的线性局部切空间判别分析算法.该算法是改进的流形学习算法的监督版,样本的局部切空间排列矩阵确保样本低维嵌入的局部几何结构不变;基于最大边界准则的数据散度矩阵确保数据分类的类内散度最小和类间散度最大;对上述2个矩阵和进行特征分解,获得平衡的投影向量基,使样本投影后的子空间被优化.对Yale,UMIST与MIT这3个人脸数据库的实验结果表明,与现有多种经典分类方法相比,提出的算法在降维的同时提取了用于人脸识别的更有效特征,识别性能较好,具有较高的判别分析能力.  相似文献   

19.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

20.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号