首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对基因表达谱微阵列的数据多分类问题,给出一种在多病类情况下的基于信噪比和相关性的特征基因选择方法.该方法一次性考虑基因区分所有病类的能力,尽量避免基因的冗余性;其次利用支持向量机,构建了基因表达谱微阵列数据的多分类器;最后通过实验表明了本方法的有效性.  相似文献   

2.
基于模糊多类SVM的图像检索相关反馈   总被引:3,自引:3,他引:0  
提出一种基于模糊多类SVM(FSVMs)的图像检索相关反馈算法.首先,将图像检索的相关反馈过程看成是一个正样本类和多个负样本类之间的多分类问题,改善了反馈固有的正负样本不对称问题;其次,将受限随机选择(CRS)扩展为多类受限随机选择(MCRS)来扩充多类负样本,解决小样本问题;并以记忆性标注的方式降低用户多类标注的疲劳和误差.实验结果表明,该方法能在较少的反馈次数内得到较满意的检索结果.  相似文献   

3.
 针对基因表达数据中的高维小样本问题,提出了一种两阶段的识别框架:“偏最小二乘法(PLS)+极大间距准则(MMC)”。该方法首先使用PLS算法提取出带有分类信息的特征,然后使用MMC准则对样本进行分类。在六个公共的基因数据库上与一些常见的基因分类方法相比较,结果显示了该方法对基于基因表达数据的肿瘤分类有效且稳定。  相似文献   

4.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

5.
针对目前大规模基因数据集中存在大量的噪声和冗余基因这一问题,提出了一种基于置换检验的两步基因特征选择算法。该算法首先采用方差分析过滤噪声基因,然后采用相关系数过滤冗余基因,最后结合置换检验的方法,可以高效、自主地处理大规模基因数据集。采用PAM(prediction analysis for microarrays)分类器,在RSCTC 2010 Discovery Challenge提供的12个竞赛数据集作基因特征选择与分类实验,实验结果表明,提出的算法能够选择高分辨、低冗余的基因子集,与目前其他基因特征选择算法相比,可以提高分类器性能。  相似文献   

6.
针对基因间共调控关系的特点和现有共调控基因聚类分析方法的不足,提出一种基于广义信息论中二次互信息的广义相似性度量标准QMISM,并利用免疫遗传算法将高维样本映射到二维空间,进而实现动态模糊聚类和聚类结果可视化.对人工合成数据和真实的基因表达数据的实验结果表明,该算法能得到更好的聚类结果.  相似文献   

7.
由于低分化肿瘤很难通过常规组织病理学诊断发现,而结合基因检测的手段可以准确筛选出针对特定肿瘤的致病基因,因此基因选择是进行肿瘤分类和临床治疗的关键问题.肿瘤基因表达数据具有样本小、维度高的特征,现有的基因选择算法在分类精度和计算效率上还有待提高.在模糊粗糙集理论的基础上进行区分矩阵模糊化,并依此设计了模糊区分矩阵属性约简算法.相比于经典的区分矩阵,模糊化的区分矩阵能够体现不同属性对于两个对象区分程度的差异,从而选择区分程度更高的属性而获得更好的分类效果.数值实验表明该方法提高了肿瘤基因数据的分类精度,且降低了计算耗时.实验采用kNN分类器进行结直肠癌(Colon Microarray)分类特征基因选择实验,从2000个特征基因中筛选出了五个结直肠癌发病相关的关键基因,且分类精度高达88. 06%.  相似文献   

8.
提出了一种新的基于非线性降维算法和统计形状比较的基因选取方法.该方法基于保持芯片数据结构的思想,消除了对于样本类信息的要求.在3组实际肿瘤芯片数据上的应用表明,新方法在维持数据结构和数据挖掘分析中都明显优于基于线性降维的选取方法.与其他成熟的基因选取方法在分类分析中的比较也证明了新方法的成功.  相似文献   

9.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

10.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

11.
基于PCA-KLFDA的小样本故障数据集降维方法   总被引:1,自引:0,他引:1  
针对小样本故障数据集降维问题,提出一种基于主元分析(PCA)和核局部费歇尔判别分析相结合的子空间降维方法.该方法首先应用PCA提取数据集中的关键信息并实施降维,然后将该子空间通过高斯核方法映射至高维线性空间,并在高维空间基于局部费歇尔判别分析训练出一个最有辨别力的低维分类特征集.用双跨转子实验台的一组故障特征数据集进行验证,结果表明:该方法能有效应对小样本的降维问题,达到增大不同故障样本集合间距离、使同类故障样本间的类内距离减小的效果,为基于数据驱动途径实现智能故障辨识技术中涉及的小样本故障数据集类别划分问题提供了一种新方法.  相似文献   

12.
微阵列数据具有样本小、维度高的特点,给数据分析带来了困难。因此,在生物信息学的研究和应用中,从微阵列数据里挑选主基因(特征选取)是十分重要和有意义的。本文采用基于最优正交质心特征选取算法(OCFS)来挑选主基因,并与基于信噪比的主基因挑选法和基于遗传算法的主基因挑选法进行了对比。利用挑选出的主基因,采用支持向量机(SVM)对数据样本进行了分类研究。通过实验,在经典的白血病数据集上,对于34个样本的测试集,达到了33/34的分类准确率,表明了本方法的适用性。  相似文献   

13.
实际问题研究中常常面临复杂数据,其中超高维数据和纵向数据常见于医学、经济学等大数据领域.基于超高维纵向数据的结构特征,推广确定独立筛选SIS(Sure Independence Screening)方法,构造了基于纵向数据组内相关结构的边际特征筛选方法,对超高维问题进行筛选降维,并从理论上证明了所提出降维筛选过程满足确定性筛选性质,从数值模拟上研究了其有限样本性质.  相似文献   

14.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

15.
多层感知器信用评价模型研究   总被引:8,自引:0,他引:8  
建立多层感知器(MLP)神经网络信用评价模型,用来对我国2000年96家上市公司进行信用评级。按照各上市公司的经营状况分为“好”、“中”、“差”三类,每一类由32家上市公司构成数据样本。对于每一家上市公司,主要考虑其经营状况的四个主要财务指标:每股收益,每股净资产,净资产收益率和每股现金流量,所有数据都来自于2000年上市公司年报。对于MLP网络结构,隐层结点的个数是采用试验的方法来确定的。先从1个开始,然后逐个逐个地增加,一直增加到不能再改善网络性能为止。仿真结果表明,多层感知器信用评价模型分类的准确率达到79.17%。此外,还详细给出MLP网络模型的学习算法和步骤。  相似文献   

16.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

17.
魏峻 《河南科学》2015,(1):58-64
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.  相似文献   

18.
微阵列技术使快速大量检测基因成为可能,人们迫切需要利用该技术提高疾病诊断水平.因此,对微阵列数据的分析研究迅速发展,其中以数据多类分类研究尤为突出.但由于微阵列数据具有特征多、样本少的特点,使得传统统计学习方法分类效果欠佳.为了针对微阵列数据特点解决多类分类问题,提出了一种迭代延长纠错输出编码(iterative extension error correct output coding,IE-ECOC)的算法.在几个特征子集上,配合与特征相关的数据复杂度,利用一种基于二叉树的编码方法生成一个列池,并提出一种择列策略构造编码矩阵;然后,依据迭代验证结果延长矩阵.对癌症基因微阵列进行分类实验,结果显示,IE-ECOC对特征多、样本少的数据具有针对性,且与一些经典的ECOC算法相比,可以产生较好的结果,IE-ECOE算法效果也在实验中得到了验证.  相似文献   

19.
采用生物信息学方法探讨GABRD基因在结肠癌样本中的表达及预后情况。通过UCSC XENA下载33种肿瘤类型和正常组织的RNA序列数据和相关临床数据,使用R软件分析GABRD基因在结肠癌样本中的表达,并筛选共表达基因,对其进行富集分析;分析GABRD基因对结肠癌患者生存及预后的影响,并建立预后列线图;构建GABRD基因的蛋白质-蛋白质相互作用(protein-proteininteraction, PPI)网络并筛选关键模块及枢纽基因,验证枢纽基因的生存及临床诊断价值。结果表明:GABRD基因在结肠癌样本中高表达并影响患者生存,筛选得到369个共表达基因,基因本体论(gene ontology, GO)功能富集发现其主要参与G蛋白偶联等生物学过程,京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)通路富集显示其主要参与AMPK等信号通路;构建出由51个节点和523个连接组成的PPI网络,筛选枢纽基因5个,其中2个显著影响生存,5个具有临床诊断价值。综上,GABRD基因在结肠癌样本中高表达,影响结肠癌患者生存及预后,可能...  相似文献   

20.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号