共查询到19条相似文献,搜索用时 62 毫秒
1.
聚类算法在基因表达数据分析中的应用 总被引:1,自引:0,他引:1
聚类算法在基因表达数据的分析处理中得到日益广泛的应用.文中对几种典型的聚类算法进行描述,对各算法在基因表达数据处理中的特点,进行评价并提出改进的策略.最后,指出聚类算法在生物信息学应用中的发展趋势。 相似文献
2.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 相似文献
3.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准... 相似文献
4.
姜伟 《辽宁师范大学学报(自然科学版)》2007,30(1):8-11
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率. 相似文献
5.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。 相似文献
6.
针对建立Native XML数据管理系统中XML数据存储,提出利用DOM规范建立父子关系和兄弟关系聚类存储策略。通过实验测试,它们分别适合XML数据深度优先查询与广度优先查询两种算法,提高了查询效率。 相似文献
7.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析. 相似文献
8.
基于R*-tree数据结构,提出了一种改进的数据预处理方法,它能有效地从训练集里剔除掉一些对聚类没有意义的点。实验表明通过这个方法能有效的减少无意义的非支持向量点,而不需要对整个数据进行训练,明显地提高了运行的速度。 相似文献
9.
Gen-Cluster:一个基因表达数据的高维聚类算法 总被引:1,自引:0,他引:1
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 相似文献
10.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感. 相似文献
11.
当灰度图像较大,图像中像素较多时,利用Normalized Cut(Ncut)方法分割生成图的节点数目多,从而给算法求解带来困难,所以提出了利用分裂合并法和Ncut法相结合进行图像分割.用分裂合并法将灰度分割成多个区域,结合区域间的灰度和位置信息,再利用Normalized Cut方法在区域间进行划分,完成图像的分割。实验结果证明该方法有效。 相似文献
12.
几种微阵列基因表达数据分析方法的比较 总被引:1,自引:0,他引:1
张世伟 《哈尔滨商业大学学报(自然科学版)》2005,21(2):223-227
比较了微阵列基因表达数据处理中的几种方法,包括等级聚类、K-means方法、模糊聚类和自组织树.同时从算法中计算机的时空复杂度和结果的生物学意义两方面,对以上几种方法作了细致的讨论.结果显示,模糊聚类和自组织树都是较理想的方法. 相似文献
13.
结合了基因表达数据类内和类间表达差异的信息,提出一种新的基因选择算法,利用它选择出来的特征基因表达作为支持向量机的输入特征向量,对四个常用数据集进行分类,结果表明,该方法可以显著提高分类精度,同时通过对选取出来的特征基因在相关信号通路上的分析,表明该方法能够得到更多的肿瘤相关基因,具有很强的鲁棒性和很高的精确度. 相似文献
14.
Isomap在基因表达谱数据聚类分析中的应用 总被引:8,自引:0,他引:8
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估 相似文献
15.
对基因表达数据进行双聚类分析是生物信息学领域的一种重要技术方法,但双聚类问题已被证明属于NP难问题.目前针对基因表达数据的双聚类算法都存在时间效率较低的问题.为此,采用遗传算法与粒子群优化算法相结合的混合进化算法来求解基因表达数据的双聚类问题.实验结果表明,所提算法在明显减少运行时间的同时,仍能保证良好的聚类效果. 相似文献
16.
针对基因表达谱微阵列的数据多分类问题,给出一种在多病类情况下的基于信噪比和相关性的特征基因选择方法.该方法一次性考虑基因区分所有病类的能力,尽量避免基因的冗余性;其次利用支持向量机,构建了基因表达谱微阵列数据的多分类器;最后通过实验表明了本方法的有效性. 相似文献
17.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果. 相似文献
18.
为了研究p53基因与其下游/靶基因的关联性,以了解p53基因表达调控网络,采用文本数据挖取方法,利用自编的Perl 5.10程序,对PubMed文献数据库中p53基因相关文献及人类基因本体数据库进行数据挖掘,并利用连锁聚类法构建p53基因表达调控网络图.结果发现,目标基因的频率分布同文本中所有基因本体的频率分布存在一定的关联性,低频基因的文本挖掘比例明显低于高频基因的文本挖掘比例.从而说明,p53基因表达调控网络中各基因的分布情况与基因频率有较大关系,而文本数据量对文本数据挖掘的准确率也有重要影响. 相似文献
19.
基因表达谱数据分布不平衡、噪声巨大,当用σ值很小的二阶软间隔高斯核支持向量机分类的时候,容易使大多数训练数据被分到占统治地位的类中。因此,B rown等认为,为了分别控制两类错误数,可以在核矩阵K中增加对角矩阵λn+NI。通过选择合适的λ,可以使属于占统治地位的类的样本上产生较小的拉格朗日乘子;而处于次要地位的类的样本上产生较大的拉格朗日乘子。但是,目前没有统一的方法选择λ。因此,提出了一种根据b值确定λ的最优值的方法。实验表明,该方法的分类效果在同等条件下好于传统的方法。 相似文献