首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
运用生物信息学方法筛选乳腺癌-冠心病标志物,为乳腺癌诱发的冠心病治疗提供潜在的作用靶点.从基因表达数据库(gene expression omnibus,GEO)中下载乳腺癌和冠心病相关表达谱芯片数据,使用GEO2R筛选差异表达基因,依据Venn图交集获取差异共表达基因,通过DAVID网站进行基因功能注释(gene ontology,GO)及京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)生物功能富集分析,STRING网站和Cytoscape 3.7.2软件进行蛋白互作分析.GE-PIA和Kaplan-Meier Plotter进行对乳腺癌患者hub基因mRNA表达水平和预后分析.结果表明:2个数据集筛选得到差异表达基因286个,基于在乳腺癌中mRNA显著性表达水平筛选出45个基因.GO功能富集分析发现差异表达基因主要在泛素蛋白转移酶活性、糖蛋白结合、泛素蛋白连接酶结合等生物学过程发挥作用.KEGG分析显示差异基因主要参与缝隙连接、肾素分泌、5-羟色胺能突触、谷氨酸能突触、血管平滑肌收缩、血小板活化、癌细胞蛋白多糖等多条信号通路.基因mRNA表达水平和预后分析显示NLN、POSTN、MAPT、MYO6、MAP1B、FBXO31、KIT、PIK3R1等8个与冠心病相关的hub基因参与乳腺癌的发生、发展过程.NLN、POSTN、MAPT、MYO6、MAP1B、FBXO31、KIT、PIK3R1可作为检测乳腺癌诱导冠心病的潜在标志物.  相似文献   

2.
朱晓姝  蒙霜  龙法宁 《广西科学》2023,30(4):764-775
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的...  相似文献   

3.
结合模式匹配、生物医学本体及共现技术,设计了一种自动抽取基因与疾病、基因与基因之间关系的文本挖掘方法,并开发了一个可以处理海量文本数据的系统.该系统可抽取与疾病相关的基因实体,挖掘基因与疾病、基因与基因之间的关系,衡量基因与疾病实体的相关性,并为分析基因与疾病、基因与基因之间的关系提供了网络可视化工具.实验结果表明,系统在测试数据集上抽取基因与疾病之间的关系可获得83.0%的综合测评率,抽取基因与基因之间的关系可获得78.5%的综合测评率.该系统已成功应用于乳腺癌及相关基因的研究.  相似文献   

4.
为数据集选择合适的聚类算法是获得高质量聚类结果的前提和保障.提出了基于有效性指标的聚类算法选择方法,通过对不同聚类算法的聚类结果的质量评价为数据集选择最适合的聚类算法.该方法的优点是在对数据集的情况了解甚少的情况下,也能有效地保障聚类质量.实验结果表明本文方法十分有效,为实验数据集正确选择出最适合的聚类算法,并获得了高质量的聚类结果.  相似文献   

5.
目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。  相似文献   

6.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准确度及聚类性能.在多个基因表达数据集上的实验结果表明,所提算法得到了更接近真实表达值的填补结果及更紧凑的聚类效果,且聚类结果具有统计显著性.  相似文献   

7.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

8.
对线粒体转录终止因子3(MTERF3)在甲状腺癌中的表达水平进行分析并评估其预后价值。从TCGA和GTEx等数据库提取甲状腺癌患者MTERF3的表达数据,探究MTERF3在甲状腺癌和癌旁组织中差异表达,分析差异表达对患者免疫细胞浸润和预后情况的影响,并明确MTERF3的临床意义。MTERF3在甲状腺癌中表达水平显著低于正常甲状腺组织,该基因在甲状腺癌中表达较低提示患者预后不良。MTERF3是甲状腺癌的预后标志物,是甲状腺癌诊断和治疗的潜在分子靶标。  相似文献   

9.
口腔鳞状细胞癌分子机制复杂,早期检测困难,因此探索其潜在生物标志物及预后相关hub基因具有重要意义.本研究从美国国家信息中心(NCBI)下载了一组口腔鳞状细胞癌(n=3)和正常组织(n=3)的转录本测序(RNASeq)表达数据(GEO),通过edgeR方法鉴定出1 269个差异表达基因(differentially expressed genes,DEGs),包括331个上调基因和938个下调基因.通过STRING V11数据库构建了差异表达基因的蛋白质相互作用(PPI)网络,并通过CytoHubba插件中常用的五种拓扑分析方法的交集获得了11个hub基因EGF、FGF2、IGF1、ACTN2、ACTA1、VWF、PTPRC、KDR、CXCL12、PTGS2和TLR4,CytoHubba提取了网络中与这11个hub基因相关的重要模块.GO功能分析和KEGG途径富集分析表明,这些模块中的基因均富集在各种功能和相关途径中.Kaplan-Meier分析表明,这11个基因都与总体生存率相关,表明这11个候选基因可能作为口腔鳞状细胞癌早期诊断和治疗的潜在生物标志物.  相似文献   

10.
基因聚类分析中数据预处理方式和相似度的选择   总被引:6,自引:0,他引:6  
聚类分析是基因表达数据分析研究的主要技术之一.选择恰当的数据预处理方式和相似性度量,是获得高质量聚类结果的前提.采用具有外部标准的基因表达数据集,分别以Pearson相关系数和Euclidean距离为相似度,以校正的Rand 指数比较了使用分层聚类、K-均值聚类和SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量.结果表明:K-均值聚类和SOMs聚类质量显著优于分层聚类,SOMs聚类质量稍好于K-均值聚类.而且,分层聚类偏好于Pearson相关系数准则和行标准化处理,而应用K-均值聚类和SOMs算法时,则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则.上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.  相似文献   

11.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

12.
为了提高乳腺癌患者的生存率,改善病人的临床治疗效果,从分子机制上研究了乳腺癌的致病基因。首先对113个正常组织和1 109个癌症组织的表达量进行差异分析,然后对差异表达的基因采用条件联合分析方式对互补基因进行分组,并用逐步Cox回归挑选出一组基因拟合预后模型。研究结果显示:VWCE,SPDYC,CRYBG3,DEFB1,SEL1L2,NMNAT2 6个基因对患者生存率是有害的,AMZ1,GJB2,CXCL2,ALDOC 4个基因对患者生存率是有利的,最终确定10个基因的预后模型能够显著地将样本分为高风险组和低风险组,并且对乳腺癌患者5年和10年的生存率进行了预测,依赖时间的AUC值均可达0.7以上。所提方法能够利用基因与基因之间的关联性,很好地对高维数据进行降维,消除基因与基因之间的共线性问题,10个基因的预后模型可以对患者的临床预测提供帮助。  相似文献   

13.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

14.
基于矩阵特征值分析的模糊聚类有效性指标   总被引:1,自引:0,他引:1  
许多有效性指标已经被提出量化地估计和评价模糊聚类算法对于给定数据集的划分结果.但是由于不合理的结构和极大的时间耗费,迄今这些有效性指标几乎都无法满足应用的一般性需求.为此,提出一个基于Gerschgorin圆盘定律估计的聚类有效性指标来估计模糊聚类的类数.先由模糊聚类划分的结果得到一个相关性矩阵,接着求出该矩阵的所有特征值和特征向量,然后基于经典Gerschgorin圆盘定律估计最优的类数.为了检验提出的指标在模糊聚类中的有效性,把模糊聚类算法应用到带有不同特征的3个人工数据集和3个真实的数据集,并比较提出的指标和2个最常用的模糊聚类有效性指标.实验结果证明了所提出的有效性指标能够发现被聚类数据集的固有结构,从而得出更加准确的类数.  相似文献   

15.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

16.
基于小波聚类的数据集简化算法研究   总被引:1,自引:0,他引:1  
大数据集没有非常有效的简化方法。提出一种基于小波聚类的数据预处理的算法DPWaveCluster,该算法包括量化特征空间、小波变换、聚类、形成查找表、映射数据点到聚类,以及按要求在聚类标识周围选取适当数据点形成简化数据集等操作步骤。利用小波变换的多分辨分析特性获得无监督聚类来帮助简化数据集。通过synthetic_dat和topo标准数据集的仿真实验表明,该算法实现简化大数据集高效而适用。  相似文献   

17.
针对复杂机械设备故障诊断中特征量众多且对各种故障敏感程度不同的现象,提出了采用软子空间聚类算法来实现故障的识别方法。同时,针对传统软子空间聚类易陷入局部最优,目标函数设计受限制的缺点,又提出了采用进化计算实现聚类的方法。利用同类样本在相关特征维上方差小的假设,新的目标函数能更好地评价聚类结果的质量。在该算法中,通过设计类中心和权重值的混合编码以及聚类导向搜索算子,使算法更适于聚类问题的优化,而且设计的修复算子可有效地去除不合理的聚类结果。采用5组UCI数据集、2组轴承滚珠故障数据集和3组往复式压缩机气阀故障数据集对算法进行了测试,结果表明:该算法明显好于几种的软子空间聚类算法,在Rand指标上最多可高出0.226 6,并且对2组不同工况下一级缸气阀故障可实现100%的故障识别。  相似文献   

18.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

19.
将神经网络与数据集的密度指标结合起来提出一种山峰-减法聚类神经网络方法,利用数据集的密度指标对基类进行合并,并不断重复直至产生足够多的聚类中心,就可完成对聚类神经元的学习。给出该聚类的神经元模型和学习算法。该方法的主要优点是对于工程应用中的大样本集分类和重叠数据的模式分类问题,显得非常有效。  相似文献   

20.
将EFICA(Efficient Variant of Algorithm FastICA)方法与基因网络相结合分析一组阿尔茨海默病(AD)微阵列数据.根据分类结果提取特征基因集并探寻与早期AD相关的基因网络,实验结果表明,EFICA方法比传统的Fastica方法能够获得更好的分类效果.并且通过对基因网络的研究,扩展了EFICA在生物信息学中的应用,为AD疾病的进一步研究提供新思路.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号