共查询到19条相似文献,搜索用时 62 毫秒
1.
聚类算法在基因表达数据分析中的应用 总被引:1,自引:0,他引:1
聚类算法在基因表达数据的分析处理中得到日益广泛的应用.文中对几种典型的聚类算法进行描述,对各算法在基因表达数据处理中的特点,进行评价并提出改进的策略.最后,指出聚类算法在生物信息学应用中的发展趋势。 相似文献
2.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 相似文献
3.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准... 相似文献
4.
姜伟 《辽宁师范大学学报(自然科学版)》2007,30(1):8-11
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率. 相似文献
5.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。 相似文献
6.
针对建立Native XML数据管理系统中XML数据存储,提出利用DOM规范建立父子关系和兄弟关系聚类存储策略。通过实验测试,它们分别适合XML数据深度优先查询与广度优先查询两种算法,提高了查询效率。 相似文献
7.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析. 相似文献
8.
基于R*-tree数据结构,提出了一种改进的数据预处理方法,它能有效地从训练集里剔除掉一些对聚类没有意义的点。实验表明通过这个方法能有效的减少无意义的非支持向量点,而不需要对整个数据进行训练,明显地提高了运行的速度。 相似文献
9.
Gen-Cluster:一个基因表达数据的高维聚类算法 总被引:1,自引:0,他引:1
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 相似文献
10.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感. 相似文献
11.
当灰度图像较大,图像中像素较多时,利用Normalized Cut(Ncut)方法分割生成图的节点数目多,从而给算法求解带来困难,所以提出了利用分裂合并法和Ncut法相结合进行图像分割.用分裂合并法将灰度分割成多个区域,结合区域间的灰度和位置信息,再利用Normalized Cut方法在区域间进行划分,完成图像的分割。实验结果证明该方法有效。 相似文献
12.
几种微阵列基因表达数据分析方法的比较 总被引:1,自引:0,他引:1
张世伟 《哈尔滨商业大学学报(自然科学版)》2005,21(2):223-227
比较了微阵列基因表达数据处理中的几种方法,包括等级聚类、K-means方法、模糊聚类和自组织树.同时从算法中计算机的时空复杂度和结果的生物学意义两方面,对以上几种方法作了细致的讨论.结果显示,模糊聚类和自组织树都是较理想的方法. 相似文献
13.
结合了基因表达数据类内和类间表达差异的信息,提出一种新的基因选择算法,利用它选择出来的特征基因表达作为支持向量机的输入特征向量,对四个常用数据集进行分类,结果表明,该方法可以显著提高分类精度,同时通过对选取出来的特征基因在相关信号通路上的分析,表明该方法能够得到更多的肿瘤相关基因,具有很强的鲁棒性和很高的精确度. 相似文献
14.
Isomap在基因表达谱数据聚类分析中的应用 总被引:8,自引:0,他引:8
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估 相似文献
15.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果. 相似文献
16.
按Gone Ontology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新的分析指标用于分类微阵列疾病样本,从而提出了基于功能表达谱的聚类分析新途径、采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析.结果显示,新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释.同时,用基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题. 相似文献
17.
基于模型的基因表达聚类分析技术研究进展 总被引:4,自引:0,他引:4
基因表达数据聚类分析能将功能相关的基因按表达谱的相似程度归纳成类,有助于对未知功能基因进行研究.基于判别的基因表达数据聚类方法具有无法准确确定类别的局限性,研究工作已转向具有更好聚类效果的基于模型的聚类方法.文中介绍了常见的基于模型的聚类方法及其特点,并就如何开发新的适合基因表达数据分析的基于模型的聚类算法进行了讨论. 相似文献
18.
针对有参混合模型的聚类算法需要假设模型为某种已知的参数模型,存在模型不匹配及非参数正交多项式密度估计不是概率密度函数的问题,提出了一种基于规范化的B样条密度模型的图像聚类算法.通过构建基于规范化的B样条密度函数的非参数混合模型,利用非参数B样条期望最大(NNBEM:Non-parametric B-spline Expectation Maximum)算法估计密度模型的未知参数,并根据贝叶斯准则实现图像的聚类.该方法不需要对模型做任何假设,可有效克服有参混合模型与实际数据分布不一致问题.对模拟图像和真实图像数据进行仿真的结果表明,规范化的B样条密度模型的聚类算法比其他算法具有更好的聚类性能. 相似文献