共查询到19条相似文献,搜索用时 468 毫秒
1.
聚类算法在基因表达数据分析中的应用 总被引:1,自引:0,他引:1
聚类算法在基因表达数据的分析处理中得到日益广泛的应用.文中对几种典型的聚类算法进行描述,对各算法在基因表达数据处理中的特点,进行评价并提出改进的策略.最后,指出聚类算法在生物信息学应用中的发展趋势。 相似文献
2.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 相似文献
3.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准... 相似文献
4.
姜伟 《辽宁师范大学学报(自然科学版)》2007,30(1):8-11
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率. 相似文献
5.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。 相似文献
6.
针对建立Native XML数据管理系统中XML数据存储,提出利用DOM规范建立父子关系和兄弟关系聚类存储策略。通过实验测试,它们分别适合XML数据深度优先查询与广度优先查询两种算法,提高了查询效率。 相似文献
7.
基于R*-tree数据结构,提出了一种改进的数据预处理方法,它能有效地从训练集里剔除掉一些对聚类没有意义的点。实验表明通过这个方法能有效的减少无意义的非支持向量点,而不需要对整个数据进行训练,明显地提高了运行的速度。 相似文献
8.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析. 相似文献
9.
Gen-Cluster:一个基因表达数据的高维聚类算法 总被引:1,自引:0,他引:1
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 相似文献
10.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效. 相似文献
11.
当灰度图像较大,图像中像素较多时,利用Normalized Cut(Ncut)方法分割生成图的节点数目多,从而给算法求解带来困难,所以提出了利用分裂合并法和Ncut法相结合进行图像分割.用分裂合并法将灰度分割成多个区域,结合区域间的灰度和位置信息,再利用Normalized Cut方法在区域间进行划分,完成图像的分割。实验结果证明该方法有效。 相似文献
12.
几种微阵列基因表达数据分析方法的比较 总被引:1,自引:0,他引:1
张世伟 《哈尔滨商业大学学报(自然科学版)》2005,21(2):223-227
比较了微阵列基因表达数据处理中的几种方法,包括等级聚类、K-means方法、模糊聚类和自组织树.同时从算法中计算机的时空复杂度和结果的生物学意义两方面,对以上几种方法作了细致的讨论.结果显示,模糊聚类和自组织树都是较理想的方法. 相似文献
13.
结合了基因表达数据类内和类间表达差异的信息,提出一种新的基因选择算法,利用它选择出来的特征基因表达作为支持向量机的输入特征向量,对四个常用数据集进行分类,结果表明,该方法可以显著提高分类精度,同时通过对选取出来的特征基因在相关信号通路上的分析,表明该方法能够得到更多的肿瘤相关基因,具有很强的鲁棒性和很高的精确度. 相似文献
14.
Isomap在基因表达谱数据聚类分析中的应用 总被引:8,自引:0,他引:8
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估 相似文献
15.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果. 相似文献
16.
为了研究p53基因与其下游/靶基因的关联性,以了解p53基因表达调控网络,采用文本数据挖取方法,利用自编的Perl 5.10程序,对PubMed文献数据库中p53基因相关文献及人类基因本体数据库进行数据挖掘,并利用连锁聚类法构建p53基因表达调控网络图.结果发现,目标基因的频率分布同文本中所有基因本体的频率分布存在一定的关联性,低频基因的文本挖掘比例明显低于高频基因的文本挖掘比例.从而说明,p53基因表达调控网络中各基因的分布情况与基因频率有较大关系,而文本数据量对文本数据挖掘的准确率也有重要影响. 相似文献
17.
Using gene expression data to discriminate tumor from the normal ones is a powerful method. However, it is sometimes difficult because the gene expression data are in high dimension and the object number of the data sets is very small. The key technique is to find a new gene expression profiling that can provide understanding and insight into tumor related cellular processes. In this paper, we propose a new feature extraction method based on variance to the center of the class and employ the support vector machine to recognize the gene data either normal or tumor. Two tumor data sets are used to demonstrate the effectiveness of our methods. The results show that the performance has been significantly improved. 相似文献
18.
按Gone Ontology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新的分析指标用于分类微阵列疾病样本,从而提出了基于功能表达谱的聚类分析新途径、采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析.结果显示,新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释.同时,用基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题. 相似文献
19.
基于模型的基因表达聚类分析技术研究进展 总被引:4,自引:0,他引:4
基因表达数据聚类分析能将功能相关的基因按表达谱的相似程度归纳成类,有助于对未知功能基因进行研究.基于判别的基因表达数据聚类方法具有无法准确确定类别的局限性,研究工作已转向具有更好聚类效果的基于模型的聚类方法.文中介绍了常见的基于模型的聚类方法及其特点,并就如何开发新的适合基因表达数据分析的基于模型的聚类算法进行了讨论. 相似文献