首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

2.
针对基因表达谱数据,建立机器学习模型,进行数据挖掘,有助于疾病诊断和发展精准医疗.由于基因表达谱的分析结果受到数据处理平台、数据格式、数据批次等因素的影响,因此,研究人员希望有统一的数据处理平台和数据处理方法,以降低这些影响,提升分析结果的准确性.基于R语言设计并实现了基因表达数据处理工具包GEDPT,旨在对数据库GEO和TCGA的基因表达谱进行统一处理,包括预处理、基因注释、表型注释、样本分组、差异分析和分析结果可视化等.利用GEDPT分析了人类直肠癌放疗相关的基因表达谱,得到了与相关文献报道一致的结果;通过对比基因分布发现,GEDPT对多个微阵列原始数据采用相同的预处理可以降低批次效应带来的负面影响.测试结果验证了GEDPT的实用性和有效性.  相似文献   

3.
双聚类是微阵列基因表达数据分析中很实用的一种数据挖掘技术,它是一种同时对微阵列基因和条件进行聚类的方法,用来挖掘基因子集在条件子集下所体现出来的生物模式。传统的双聚类算法对于庞大的基因表达数据处理效率很弱,考虑在j Metal平台上实现基因表达数据的双聚类的一种新的研究方法及思路。同时考虑加入并行策略,提高算法的效率。在酵母啤酒细胞基因表达集和人类B-细胞两个标准数据集上对两个算法进行实验验证,表明所提出算法比其他多目标双聚类算法呈现出更好的优越性。  相似文献   

4.
以乳腺肿瘤的基因微阵列实验所产生的基因微阵列表达数据为研究对象,针对大规模基因表达模式分析的特点,提出基于模糊自适应共振网络简化模型的基因表达数据分类方法,并在此基础上实现了BRCA1变异和BRCA2变异的乳腺肿瘤分类.利用Hedenfalk的基因微阵列数据,对BRCA1变异和BRCA2变异作分类计算,计算结果达到78%以上的正确率.  相似文献   

5.
DNA 微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于粗糙集的支持向量机基因表达数据分类方法,该方法采用粗糙集进行基因特征约简,运用支持向量机进行数据分类,实验表明其分类效果良好.  相似文献   

6.
基于模型的基因表达聚类分析技术研究进展   总被引:4,自引:0,他引:4  
基因表达数据聚类分析能将功能相关的基因按表达谱的相似程度归纳成类,有助于对未知功能基因进行研究.基于判别的基因表达数据聚类方法具有无法准确确定类别的局限性,研究工作已转向具有更好聚类效果的基于模型的聚类方法.文中介绍了常见的基于模型的聚类方法及其特点,并就如何开发新的适合基因表达数据分析的基于模型的聚类算法进行了讨论.  相似文献   

7.
超高维基因空间超小样本的基因选择问题是基因芯片技术的挑战性课题之一,对于解决维数发难问题和获得诊断基因具有重要的理论和实际意义.针对DNA微阵列数据的超高维空间和超小样本特性,提出了实现二病类样本有效分类的基于支持向量机(SVM)和leave-one-out的递增基因选择方法,并针对多病类情况的基因选择问题,提出了在区分两两病类所选基因基础上的基于多层感知器(MLP)和leave-one-out/MLP leave-4-out的递减基因选择方法.对于真实MIT数据(7129个基因、两个病类、72个样本)和NCI数据(2308个基因、64个样本、4个病类),用文中方法选择出了11个和6个诊断基因,与传统SNR方法的比较结果表明所选出的这些诊断基因有很好的诊断性能(即推广能力),既可有效诊断相应疾病,同时极大降低芯片和诊断费用,表明了该方法的有效性.  相似文献   

8.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

9.
微阵列技术使快速大量检测基因成为可能,人们迫切需要利用该技术提高疾病诊断水平.因此,对微阵列数据的分析研究迅速发展,其中以数据多类分类研究尤为突出.但由于微阵列数据具有特征多、样本少的特点,使得传统统计学习方法分类效果欠佳.为了针对微阵列数据特点解决多类分类问题,提出了一种迭代延长纠错输出编码(iterative extension error correct output coding,IE-ECOC)的算法.在几个特征子集上,配合与特征相关的数据复杂度,利用一种基于二叉树的编码方法生成一个列池,并提出一种择列策略构造编码矩阵;然后,依据迭代验证结果延长矩阵.对癌症基因微阵列进行分类实验,结果显示,IE-ECOC对特征多、样本少的数据具有针对性,且与一些经典的ECOC算法相比,可以产生较好的结果,IE-ECOE算法效果也在实验中得到了验证.  相似文献   

10.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

11.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

12.
摘要:研究低功率毫米波辐射对HL60白血病细胞基因表达谱的影响。应用基因芯片检测频率41.32GHz的毫米波辐射HL60白血病细胞和未辐射毫米波HL60白血病细胞组基因表达差异,并进行RT-PCR方法验证IL-7、EGF和LGALS3基因变化。 结果与对照组比较,毫米波辐射60min后,HL60细胞增殖,基因芯片检出基因表达上调18个和下调306个,在下调的基因中,RT-PCR 检出IL-7、EGF和LGALS3基因下调与基因芯片结果一致。表明低功率毫米波可导致HL60细胞基因表达谱发生变化,这些变化的基因与HL60细胞增殖功能相关。提示基因表达变化是低功率毫米波辐射HL60细胞所致生物学反应的重要因素。  相似文献   

13.
14.
随着DNA微列阵技术的发展,利用基因表达谱数据进行生物信息的有效挖掘已经成为研究热点.因此,该文中提出将点的代数连通强度与非负矩阵分解相结合的方法对基因表达数据进行分类处理.首先利用点的代数连通强度剔除受外界因素影响过大的基因数据并用修正的特征计分准则进行计分排序,选取具有高计分的基因子集;接着利用近来流行的非负矩阵分解将该基因子集映射到极低维的特征空间;最后利用SVM分类器实现分类实验.通过几组公开的基因表达谱数据集的实验结果以及与其他方法的对比分析,验证了该方法是有效的、可行的.  相似文献   

15.
癌症基因表达数据的熵度量分类方法   总被引:5,自引:4,他引:1  
基因芯片技术的出现和发展为生物医学领域带来了深远影响,运用分类方法研究其产生的海量数据对癌症的分类及治疗有重要意义.该文提出一种利用熵度量作为指标进行癌症基因表达数据特征提取的方法.首先对基因表达数据进行筛选并计算各个基因的熵,然后提取出熵最大的若干基因作为特征基因,并用支持向量机进行分类.对前列腺癌基因表达数据的留一法以及分组法实验都证明了该方法的有效性.  相似文献   

16.
Gene association study is one of the major challenges of biochip technology both for gene diagnosis where only a gene subset is responsible to some diseases, and for treatment of curse of dimensionality which occurs especially in DNA microarray datasets where there are more than thousands of genes and only a few number of experiments (samples). This paper presents a gene selection method by training linear support vector machine (SVM)/nonlinear MLP (multi-layer perceptron) classifiers and testing them with cross validation for finding a gene subset which is optimal/suboptimal for diagnosis of binary/multiple disease types. Genes are selected with linear SVM classifier for the diagnosis of each binary disease types pair and tested by leave-one-out cross validation; then, genes in the gene subset initialized by the union of them are deleted one by one by removing the gene which brings the greatest decrease of the generalization power, for samples, on the gene subset after removal, where generalization is measured by training MLPs with leave-one-out and leave-4-out cross validations. The proposed method was tested with experiments on real DNA microarray MIT data and NCI data. The result shows that it outperforms conventional SNR method in separability of the data with expression levels on selected genes. For real DNA microarray MIT/NCI data, which is composed of 7129/2308 effective genes with only 72/64 labeled samples belonging to 2/4 disease classes, only 11/6 genes are selected to be diagnostic genes. The selected genes are tested by classification of samples on these genes with SVM/MLP with leave-one-out/both leave-one-out and leave-4-out cross validations. The result of no misclassification indicates that the selected genes can be really considered as diagnostic genes for the diagnosis of the corresponding diseases.  相似文献   

17.
Gene association study is one of the major challenges of biochip technology both for gene diagnosis where only a gene subset is responsible for some diseases, and for the treatment of the curse of dimensionality which occurs especially in DNA microarray datasets where there are more than thousands of genes and only a few number of experiments (samples). This paper presents a gene selection method by training linear support vector machine (SVM)/nonlinear MLP (multilayer perceptron) classifiers and testing them with cross-validation for finding a gene subset which is optimal/suboptimal for the diagnosis of binary/multiple disease types. Genes are selected with linear SVM classifier for the diagnosis of each binary disease types pair and tested by leave-one-out cross-validation; then, genes in the gene subset initialized by the union of them are deleted one by one by removing the gene which brings the greatest decrease of the generalization power, for samples, on the gene subset after removal, where generalization is measured by training MLPs with leave-one-out and leave-four-out cross-validations. The proposed method was tested with experiments on real DNA microarray MIT data and NCI data. The result shows that it outperforms conventional SNR method in the separability of the data with expression levels on selected genes. For real DNA microarray MIT/NCI data, which is composed of 7129/2308 effective genes with only 72/64 labeled samples belonging to 2/4 disease classes, only 11/6 genes are selected to be diagnostic genes. The selected genes are tested by the classification of samples on these genes with SVM/MLP with leave-one-out/both leave-one-out and leave-four-out cross-validations. The result of no misclassification indicates that the selected genes can be really considered as diagnostic genes for the diagnosis of the corresponding diseases.  相似文献   

18.
Gene association study is one of the major challenges of biochip technology both for gene diagnosis where only a gene subset is responsible for some diseases, and for the treatment of the curse of dimensionality which occurs especially in DNA microarray datasets where there are more than thousands of genes and only a few number of experiments (samples). This paper presents a gene selection method by training linear support vector machine (SVM)/nonlinear MLP (multilayer perceptron) classifiers and testing them with cross-validation for finding a gene subset which is optimal/suboptimal for the diagnosis of binary/multiple disease types. Genes are selected with linear SVM classifier for the diagnosis of each binary disease types pair and tested by leave-one-out cross-validation; then, genes in the gene subset initialized by the union of them are deleted one by one by removing the gene which brings the greatest decrease of the generalization power, for samples, on the gene subset after removal, where generalization is measured by training MLPs with leaveone-out and leave-four-out cross-validations. The proposed method was tested with experiments on real DNA microarray MIT data and NCI data. The result shows that it outperforms conventional SNR method in the separability of the data with expression levels on selected genes. For real DNA microarray MIT/NCI data, which is composed of 7129/2308 effective genes with only 72/64 labeled samples belonging to 2/4 disease classes, only 11/6 genes are selected to be diagnostic genes. The selected genes are tested by the classification of samples on these genes with SVM/MLP with leave-one-out/both leave-one-out and leave-four-out cross-validations. The result of no misclassification indicates that the selected genes can be really considered as diagnostic genes for the diagnosis of the corresponding diseases.  相似文献   

19.
相关疾病基因的发现和预测是人类基因组研究的重要目标.近些年,一些研究者通过基于网络结构的方法来解决这个难题.然而,大多数方法在推理过程中仅使用了局部的网络信息,并且仅限于推理单一基因的关联.并且这些方法很少考虑到疾病-基因关联网络的网络拓扑性.笔者提出一种改进的基于二部图网络结构推理(improved network-based inference)的计算方法.该方法基于已知的疾病-基因网络拓扑相似性来发现更多潜在致病基因.文中使用的是OMIM数据库中的203种疾病的数据,通过留一交叉验证法验证实验,并获得了88.9%的AUC值.与文中提到的另外两种方法相比,该文方法能够有效地预测潜在致病基因.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号