首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
Gene association study is one of the major challenges of biochip technology both for gene diagnosis where only a gene subset is responsible to some diseases, and for treatment of curse of dimensionality which occurs especially in DNA microarray datasets where there are more than thousands of genes and only a few number of experiments (samples). This paper presents a gene selection method by training linear support vector machine (SVM)/nonlinear MLP (multi-layer perceptron) classifiers and testing them with cross validation for finding a gene subset which is optimal/suboptimal for diagnosis of binary/multiple disease types. Genes are selected with linear SVM classifier for the diagnosis of each binary disease types pair and tested by leave-one-out cross validation; then, genes in the gene subset initialized by the union of them are deleted one by one by removing the gene which brings the greatest decrease of the generalization power, for samples, on the gene subset after removal, where generalization is measured by training MLPs with leave-one-out and leave-4-out cross validations. The proposed method was tested with experiments on real DNA microarray MIT data and NCI data. The result shows that it outperforms conventional SNR method in separability of the data with expression levels on selected genes. For real DNA microarray MIT/NCI data, which is composed of 7129/2308 effective genes with only 72/64 labeled samples belonging to 2/4 disease classes, only 11/6 genes are selected to be diagnostic genes. The selected genes are tested by classification of samples on these genes with SVM/MLP with leave-one-out/both leave-one-out and leave-4-out cross validations. The result of no misclassification indicates that the selected genes can be really considered as diagnostic genes for the diagnosis of the corresponding diseases.  相似文献   

2.
Gene association study is one of the major challenges of biochip technology both for gene diagnosis where only a gene subset is responsible for some diseases, and for the treatment of the curse of dimensionality which occurs especially in DNA microarray datasets where there are more than thousands of genes and only a few number of experiments (samples). This paper presents a gene selection method by training linear support vector machine (SVM)/nonlinear MLP (multilayer perceptron) classifiers and testing them with cross-validation for finding a gene subset which is optimal/suboptimal for the diagnosis of binary/multiple disease types. Genes are selected with linear SVM classifier for the diagnosis of each binary disease types pair and tested by leave-one-out cross-validation; then, genes in the gene subset initialized by the union of them are deleted one by one by removing the gene which brings the greatest decrease of the generalization power, for samples, on the gene subset after removal, where generalization is measured by training MLPs with leaveone-out and leave-four-out cross-validations. The proposed method was tested with experiments on real DNA microarray MIT data and NCI data. The result shows that it outperforms conventional SNR method in the separability of the data with expression levels on selected genes. For real DNA microarray MIT/NCI data, which is composed of 7129/2308 effective genes with only 72/64 labeled samples belonging to 2/4 disease classes, only 11/6 genes are selected to be diagnostic genes. The selected genes are tested by the classification of samples on these genes with SVM/MLP with leave-one-out/both leave-one-out and leave-four-out cross-validations. The result of no misclassification indicates that the selected genes can be really considered as diagnostic genes for the diagnosis of the corresponding diseases.  相似文献   

3.
临床上,由于心电图特征信息的交错而难以对患者的心脏早博类型进行正确识别.作为计算机辅助的一种方法,基于从临床收集到的82个患者的样本,建立了支持向量机模型.该模型的训练准确度为94.44%、测试准确度达到92.86%,其留一法交叉检验准确度为92.59%.满意的结果表明所建议的模型可以应用于临床辅助诊断.  相似文献   

4.
微阵列数据具有样本小、维度高的特点,给数据分析带来了困难。因此,在生物信息学的研究和应用中,从微阵列数据里挑选主基因(特征选取)是十分重要和有意义的。本文采用基于最优正交质心特征选取算法(OCFS)来挑选主基因,并与基于信噪比的主基因挑选法和基于遗传算法的主基因挑选法进行了对比。利用挑选出的主基因,采用支持向量机(SVM)对数据样本进行了分类研究。通过实验,在经典的白血病数据集上,对于34个样本的测试集,达到了33/34的分类准确率,表明了本方法的适用性。  相似文献   

5.
癌症基因表达数据的熵度量分类方法   总被引:5,自引:4,他引:1  
基因芯片技术的出现和发展为生物医学领域带来了深远影响,运用分类方法研究其产生的海量数据对癌症的分类及治疗有重要意义.该文提出一种利用熵度量作为指标进行癌症基因表达数据特征提取的方法.首先对基因表达数据进行筛选并计算各个基因的熵,然后提取出熵最大的若干基因作为特征基因,并用支持向量机进行分类.对前列腺癌基因表达数据的留一法以及分组法实验都证明了该方法的有效性.  相似文献   

6.
利用小波分解和支持向量机的心理意识真实性识别研究   总被引:3,自引:0,他引:3  
采用小波分解和支持向量机(SVM)技术,提出了一种对说谎脑电(EEG)信号特征进行分类的方法,将其应用于心理意识真实性的检测,获得了满意的结果.以真伪已明确的有意义的个人信息(如姓名、生日)作为被测试的隐藏信息,应用隐藏信息(CIT)测试模式对15名受试者各进行两组测试,并记录其脑电(EEG)信号.提取了探测刺激和无关刺激诱发EEG信号的小波系数,并应用具有统计学意义的特征参数作为SVM分类器的输入进行识别分类.实验结果显示,应用leave-one-out交叉验证法对30组样本数据进行训练测试,获得平均正确识别率为88.3%.因此,该方法可以作为一种心理意识真实性检测的新方法,具有无创、较高正确检测率等优点.  相似文献   

7.
基于支持向量机的皮肤显微图像识别   总被引:3,自引:0,他引:3  
该文针对皮肤显微图像症状识别过程中样本采集困难、数量偏少的实际情况,在皮肤症状识别中引入了一种新的模式识别方法——支持向量机(Support Vector Machines,SVM).该方法基于统计学习理论的原理,较好地解决了小样本的分类问题.文中采用“一对一”的策略解决多类别的SVM分类问题,使用留一法进行交叉验证,并比较了SVM与人工神经网络算法的识别结果.结果表明,SVM算法识别率高(89.35%),且速度快.根据该算法,建立了皮肤症状显微图像识别系统软件的原型.  相似文献   

8.
针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行多步骤降维处理的分类方法.第一步,采用基因表达差异显著性分析方法(SAM)筛选得到差异表达基因子集.第二步,采用支持向量机(SVM)分类器对该差异表达基因子集进行进一步的分类降维.将该方法用来处理大肠癌和白血病数据集,得到了数量较少而分类能力较强的特征基因子集.实验结果证明该方法可以快速有效地筛选肿瘤特征基因.  相似文献   

9.
基于PSO参数辨识SVM的中长期径流预测研究   总被引:2,自引:0,他引:2  
以径向基函数作为核函数,利用微粒群(PSO)算法的全局寻优特性进行支持向量机(SVM)的参数辩识.在微粒群搜索参数前,先对参数进行指数变换,使[0,1]和[1,∞]有着相同的搜索概率.微粒群算法的适应值函数是以支持向量机模型的推广能力为标准的,讨论了测试样本的最小误差和留一法对支持向量机学习方法推广能力的两种估计.最后...  相似文献   

10.
提出了一种针对软组织肉瘤转移性预测的辅助诊断方法,该方法通过对患者的FDG-PET和CT诊断图像进行纹理特征分析,共提取了105个特征,其中包括灰度共生矩阵的24个特征和其他81个灰度等级的特征,分别利用支持向量机、K近邻和随机森林等机器学习算法建立预测模型,并采用网格搜索法对其参数进行优化.最后使用留一交叉验证法对各...  相似文献   

11.
极限学习机的快速留一交叉验证算法   总被引:4,自引:0,他引:4  
针对回归和分类问题,提出一种极限学习机(Extreme Learning Machine, ELM)的快速留一交叉验证算法,并从理论和数值仿真两方面说明其有效性.结果表明,该算法避免了以训练样本数量N次的ELM模型的显式训练,其计算复杂度与N仅呈线性趋势增长,即O(N).即使在处理大型数据集建模问题时,该算法仍然可以快速地进行ELM模型的选择和评价.通过人工和实际数据集上的仿真实验,验证了该快速留一交叉验证算法的有效性.  相似文献   

12.
基于角度分布的高维数据流异常点检测算法   总被引:1,自引:0,他引:1  
为了有效检测高维数据流中的异常点,提出一种基于角度分布的高维数据流异常点检测(DSOD)算法.运用基于角度分布的方法准确识别高维数据集中的正常点、边界点以及异常点;构造了基于正常集、边界集的小规模数据流型计算集,以降低算法在空间以及时间上的开销;建立了正常集、边界集的更新机制,以解决大数据流的概念转移问题.在真实数据集上的实验结果表明,所提出的DSOD算法的效率高于Simple VOA算法与ABOD算法,并且适用于大数据流上的异常点检测.  相似文献   

13.
支持向量机的一个边界样本修剪方法   总被引:1,自引:0,他引:1  
支持向量机仅仅由支持向量所决定,而支持向量来自于边界的样本,如果样本集中存在较多的噪音或孤立点,特别是两类样本过分交叉,都会降低支持向量机的推广能力。为了改善支持向量机的推广性能,文章提出一个支持向量机的边界样本修剪方法:首先对边界样本进行抽取,然后用RemoveOnly算法对边界样本进行修剪,修剪后的边界样本就是最终的支持向量机训练样本。实验结果表明,修剪方法可以让支持向量机的推广能力有不同程度的提高。  相似文献   

14.
多环芳烃及其衍生物致癌性的支持向量机预测模型   总被引:4,自引:2,他引:4  
分别用支持向量分类法、Fisher法判别、K最近邻法和反向传播人工神经网络,对353种多环芳烃及其衍生物致癌性构建二分类模型,并采用留一法交叉校验作比较,所构建的支持向量机模型的误报样本数及预报准确率均高于其它3种方法.实验结果表明,支持向量机算法具有较强的稳健性和良好的泛化能力,能够用于多环芳烃及其衍生物致癌性的二分类和预测.  相似文献   

15.
This paper presents a novel method that integrates the Algebraic Connectivity Strength of Point(ACSP) and Scoring Criteria to identify genes associated with tumor type.First,for each gene,the ACSP is used to identify reliable expression levels of the gene in all the samples.The informative genes are then selected using Scoring Criteria based on these reliable expression levels.Finally,the Support Vector Machine(SVM) classifier is used to classify the two datasets of gene expression profiling.The results show that the informative genes selected by the proposed method have higher credibility than those selected by Scoring Criteria alone.  相似文献   

16.
利用包含 40 96条各种人类基因的DNA芯片研究了代谢增强剂PMA(phorbolmyristateacetate)激活的人单核巨噬细胞HTP 1的早期应答基因 ,根据已有的旧基因信息 ,实验结果基本反映了人单核巨噬细胞早期应答基因的表达谱 .选取其中一条候选早期应答基因为后续研究对象 ,并进行蛋白质的酵母表达 ,为下游的基因功能研究奠定一定的基础 .  相似文献   

17.
基于支撑向量机的电力系统峰负荷预测   总被引:1,自引:0,他引:1  
将支撑向量机(SVM)方法用于电力系统峰负荷预测,它具有精度高、全局最优等显著特点.为了确定SVM中直接影响其推广能力的超参数,与一般采用的试凑法不同,提出了利用交叉有效性验证方法确定这些参数.另外,在样本的输入信息中,除负荷变量外,还根据峰负荷预测的特点,加入了对峰负荷预测影响较大的温度变量、星期类型及节假日信息,以提高预测精度.实际算例表明,在相同的负荷及气象数据的前提下,该方法的预测精度比神经网络方法提高了0 4%~0 8%.  相似文献   

18.
摘要:研究低功率毫米波辐射对HL60白血病细胞基因表达谱的影响。应用基因芯片检测频率41.32GHz的毫米波辐射HL60白血病细胞和未辐射毫米波HL60白血病细胞组基因表达差异,并进行RT-PCR方法验证IL-7、EGF和LGALS3基因变化。 结果与对照组比较,毫米波辐射60min后,HL60细胞增殖,基因芯片检出基因表达上调18个和下调306个,在下调的基因中,RT-PCR 检出IL-7、EGF和LGALS3基因下调与基因芯片结果一致。表明低功率毫米波可导致HL60细胞基因表达谱发生变化,这些变化的基因与HL60细胞增殖功能相关。提示基因表达变化是低功率毫米波辐射HL60细胞所致生物学反应的重要因素。  相似文献   

19.
随着DNA微列阵技术的发展,利用基因表达谱数据进行生物信息的有效挖掘已经成为研究热点.因此,该文中提出将点的代数连通强度与非负矩阵分解相结合的方法对基因表达数据进行分类处理.首先利用点的代数连通强度剔除受外界因素影响过大的基因数据并用修正的特征计分准则进行计分排序,选取具有高计分的基因子集;接着利用近来流行的非负矩阵分解将该基因子集映射到极低维的特征空间;最后利用SVM分类器实现分类实验.通过几组公开的基因表达谱数据集的实验结果以及与其他方法的对比分析,验证了该方法是有效的、可行的.  相似文献   

20.
按Gone Ontology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新的分析指标用于分类微阵列疾病样本,从而提出了基于功能表达谱的聚类分析新途径、采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析.结果显示,新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释.同时,用基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号