首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
提出了采用Tukey双权函数作为FastICA(Fast Independent Component Analysis)方法的非线性函数,对阿尔茨海默症(Alzheimer’s disease, AD)多个脑区域基因表达数据进行显著基因提取,揭示其基因表达调控关系.针对传统聚类方法基于全局聚类且只能将某个基因聚类到某一类的缺陷,改进的FastICA方法能够对基因表达数据进行快速有效的双向聚类,能够满足同一个基因可能参与不同信号传导通路的生物特性.同时考虑到人脑中海马区、内嗅皮质区、颞中回及视觉皮层区均与学习与记忆功能密切相关,将算法对多个脑区域进行基因表达调控综合分析.结果表明,大量炎症反应是AD致病的重要因素之一.  相似文献   

2.
研究表明阿尔茨海默病(AD)的致病机理可能与基因有关.利用计算方法对AD基因表达数据进行挖掘,以获得AD候选致病基因,寻找治愈AD方法.结合生物信息理论应用基于主成分分析(PCA)方法的模糊C均值算法处理基因表达数据:观察到AD基因表达数据具有线性相关性后,先用PCA对数据降维,再利用一维分类方法对降维后的数据聚类,然后将结果提供给模糊C均值算法作为其初始聚类数目和聚类中心.通过算法,最终识别出9个AD候选致病基因.  相似文献   

3.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

4.
针对层次聚类算法高维度数据计算复杂度较高、抗干扰性较差、误差较大等不足,在结合基因表达式编程(GEP)非线性演化优越性能的基础上,提出一种基于GEP计算模型的层次聚类算法(GEPHCA),寻找经过基因遗传进化适应度最高的聚类中心.通过试验对比验证可知:基于基因表达式编程的自适应层次聚类方法在实际应用中是有效的,不仅能够实现自动聚类,而且和一般的聚类方法进行比较,具有自适应迭代、速度较快、稳定高效等优点.  相似文献   

5.
基因表达模式分析及软件系统   总被引:2,自引:0,他引:2  
研究和实现了4种基因表达模式的聚类方法,开发了基因表达模式分析软件系统.该软件包含了两两平均连锁聚类法、系统聚类法、自组织特征映射法和模糊聚类等聚类算法,其中模糊聚类算法是首次用于基因表达模式分析.该软件同时具有数据过滤、多种相似性度量选择、聚类方法选择和结果可视化等功能.对于同一组基因表达数据,可通过不同的聚类算法的组合,提供更多的基因分类信息,为生物体复杂的基因表达模式研究提供了一个重要的综合分析平台.  相似文献   

6.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

7.
OPSM作为一种基于模式的双聚类方法,被广泛应用于基因数据矩阵的分析上.在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下具有一致的表达模式,其中隐含着基因的关联调控信息,对基因数据矩阵进行双聚类分析具有生物学意义.其中,Deep OPSM 是OPSM 聚类中行数少列数多的特殊聚类.根据OPSM模型,该文提出了一种快速有效的精确性算法,用于挖掘分散在基因数据矩阵中的OPSM聚类.首先寻找基因数据矩阵中任意两行的公共子序列,然后利用STL map对找到的公共子序列进行支持度统计,并将符合支持度阈值的OPSM聚类输出,且通过阈值的设置即可输出Deep OPSMs.结果证明该算法能够快速地找到符合条件的Deep OPSMs.通过P-value值分析,验证了找到的Deep OPSM具有明显的生物学意义.  相似文献   

8.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

9.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.  相似文献   

10.
针对基因间共调控关系的特点和现有共调控基因聚类分析方法的不足,提出一种基于广义信息论中二次互信息的广义相似性度量标准QMISM,并利用免疫遗传算法将高维样本映射到二维空间,进而实现动态模糊聚类和聚类结果可视化.对人工合成数据和真实的基因表达数据的实验结果表明,该算法能得到更好的聚类结果.  相似文献   

11.
朱晓姝  蒙霜  龙法宁 《广西科学》2023,30(4):764-775
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的...  相似文献   

12.
Gen-Cluster:一个基因表达数据的高维聚类算法   总被引:1,自引:0,他引:1  
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.  相似文献   

13.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析.  相似文献   

14.
几种微阵列基因表达数据分析方法的比较   总被引:1,自引:0,他引:1  
比较了微阵列基因表达数据处理中的几种方法,包括等级聚类、K-means方法、模糊聚类和自组织树.同时从算法中计算机的时空复杂度和结果的生物学意义两方面,对以上几种方法作了细致的讨论.结果显示,模糊聚类和自组织树都是较理想的方法.  相似文献   

15.
针对类别保局投影基于类内散度的特点,提出了一种基于类间散度的特征提取方法——类别非局保留投影. 利用Matlab软件对类别保局投影、主分量分析和类别非局保留投影进行了可视化效果和聚类识别率的比较、分析. 结果表明,在类间信息起主导作用的基因表达数据分类任务中,类别非局保留投影比类别保局投影能获得更好的分类特征. 因此类别非局保留投影更适合于类间信息其主导作用的分类任务.  相似文献   

16.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

17.
随着人类基因组计划的实施和完成, 生物实验技术快速发展, 生物数据呈现爆发式增长并不断积累, 生命科学迎来了大数据时代. 在后基因组时代, 单一的统计模式逐渐被智能化与综合分析相结合的方式所取代, 聚类分析便是核心的数据挖掘方式. 描述了生物信息学领域中的大数据现状, 总结基因表达谱分析和生物网络分析中常用的聚类方法, 并对小鼠胚胎成纤维细胞的时间序列数据进行实验对比. 实验结果表明, 不同的聚类方法生成了不同的实验结果, 面临高噪声的生物大数据, 选择或结合合适的聚类方法进行综合分析将有助于获得更可靠的分析结果.  相似文献   

18.
聚类算法在基因表达数据分析中的应用   总被引:1,自引:0,他引:1  
聚类算法在基因表达数据的分析处理中得到日益广泛的应用.文中对几种典型的聚类算法进行描述,对各算法在基因表达数据处理中的特点,进行评价并提出改进的策略.最后,指出聚类算法在生物信息学应用中的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号