共查询到20条相似文献,搜索用时 31 毫秒
1.
对基因表达数据进行双聚类分析是生物信息学领域的一种重要技术方法,但双聚类问题已被证明属于NP难问题.目前针对基因表达数据的双聚类算法都存在时间效率较低的问题.为此,采用遗传算法与粒子群优化算法相结合的混合进化算法来求解基因表达数据的双聚类问题.实验结果表明,所提算法在明显减少运行时间的同时,仍能保证良好的聚类效果. 相似文献
2.
基于中国宏观经济统计数据,首次将双聚类方法应用到经济区划领域,对中国各省份经济区域划分方案以及各省份经济增长模式等问题做了研究和预测,并将结果与传统的层次聚类方法的结果做了比较。研究结果表明,层次聚类算法对于全国经济区划的整体分析结果相对直观并且应用方便,双聚类算法的结果在挖掘各省在某些属性集合下的共性具有其独特的优势。 相似文献
3.
OPSM作为一种基于模式的双聚类方法,被广泛应用于基因数据矩阵的分析上.在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下具有一致的表达模式,其中隐含着基因的关联调控信息,对基因数据矩阵进行双聚类分析具有生物学意义.其中,Deep OPSM 是OPSM 聚类中行数少列数多的特殊聚类.根据OPSM模型,该文提出了一种快速有效的精确性算法,用于挖掘分散在基因数据矩阵中的OPSM聚类.首先寻找基因数据矩阵中任意两行的公共子序列,然后利用STL map对找到的公共子序列进行支持度统计,并将符合支持度阈值的OPSM聚类输出,且通过阈值的设置即可输出Deep OPSMs.结果证明该算法能够快速地找到符合条件的Deep OPSMs.通过P-value值分析,验证了找到的Deep OPSM具有明显的生物学意义. 相似文献
4.
一种基于模糊集理论的双聚类算法 总被引:1,自引:0,他引:1
双聚类(Biclustering)算法是一种横向纵向同时进行的数据挖掘的聚类算法,主要用于生物信息学上对高维复杂的数据进行聚类,以平均平方残基作为筛选标准,贪婪迭代的方法来选取数据.传统双聚类算法聚出来的簇通常不是预想的结果,迭代次数越多偏差就越大,对于庞大的数据精确度会更小,而模糊集理论可以改进这种迭代产生偏差与得不蓟预想结果的不足.为了获得更加好的实验结果,用模糊数学中的隶属矩阵和综合评判等方法改进双聚类的算法,使得聚类结果更精确更具有一致性,便于发现数据的关联性. 相似文献
5.
双聚类是微阵列基因表达数据分析中很实用的一种数据挖掘技术,它是一种同时对微阵列基因和条件进行聚类的方法,用来挖掘基因子集在条件子集下所体现出来的生物模式。传统的双聚类算法对于庞大的基因表达数据处理效率很弱,考虑在j Metal平台上实现基因表达数据的双聚类的一种新的研究方法及思路。同时考虑加入并行策略,提高算法的效率。在酵母啤酒细胞基因表达集和人类B-细胞两个标准数据集上对两个算法进行实验验证,表明所提出算法比其他多目标双聚类算法呈现出更好的优越性。 相似文献
6.
基于多目标优化的双聚类算法能够同时优化均方残差和尺寸等多个相互冲突的目标,更好地挖掘出均方残差较小、尺寸较大的双聚类,提出了一个多目标人工蜂群双聚类算法.该方法首先采用组信息对蜜源进行编码,然后使用2种交叉和1种变异操作分别实现算法的局部搜索和全局搜索,最后根据非劣排序和拥挤距离对外部档案进行修剪.在2套真实的基因表达数据集上进行实验,结果表明:与其他公开算法相比,多目标人工蜂群双聚类算法具有较好的收敛性和种群多样性,同时挖掘出具有显著生物意义的双聚类. 相似文献
7.
聚类算法在基因表达数据分析中的应用 总被引:1,自引:0,他引:1
聚类算法在基因表达数据的分析处理中得到日益广泛的应用.文中对几种典型的聚类算法进行描述,对各算法在基因表达数据处理中的特点,进行评价并提出改进的策略.最后,指出聚类算法在生物信息学应用中的发展趋势。 相似文献
8.
9.
本文介绍了聚类算法基本原理以及各种常用的聚类算法,并比较分析了几种典型聚类算法的优点与不足。以便于对聚类算法作进一步的研究。 相似文献
10.
一种有效的基因投影聚类算法 总被引:1,自引:0,他引:1
针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法.该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角.通过真实微阵列数据实验,证明了提出的算法具有较高的正确率. 相似文献
11.
DBSCAN算法是一种基于密度的空间数据聚类方法, 聚类速度快, 且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗, 当空间聚类的密度不均匀,聚类间距离相差很大时, 聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果. 相似文献
12.
孙俊玲 《河南师范大学学报(自然科学版)》2014,(5):159-164
提出了差异共表达框架和一个差异共表达评分函数,以观察到的一个双聚类基因在所属双聚类的条件下共表达和在其他条件下非共表达为基础,客观量化基因双聚类的质量.此外,还提出了一个评分函数把双聚类分层为三种类型的共表达.在实现双聚类输出统一排名中,使用提出的评分函数对这4个公认的双聚类算法在不同区域的6个实际数据集上的性能和行为进行测试.实验结果表明,在鉴别共表达双聚类方面,差异共表达框架能有效提高共表达基因双聚类质量和双聚类算法的性能. 相似文献
13.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 相似文献
14.
《中南民族大学学报(自然科学版)》2017,(4):112-115
为进一步解决基于用户的协作过滤技术的扩展性问题,利用基因表达式编程(GEP)的并行性优势,与已有的串行聚类DBSCAN算法进行融合,使得串行程序并行化,提出了一种GEP-DBSCAN协作过滤聚类算法来寻找最近邻居,改进基于密度的协作过滤方法,实验证明了算法的有效性以及提高了时间效率. 相似文献
15.
硬聚类算法HCM的求解结果通常是局部最优解,本文将遗传算法应用于HCM聚类算法,同时考虑到该算法实现时的效率和开销,最终提出了一种新的算法MHCM聚类算法。测试数据实验表明采用MHCM聚类算法的结果90%以上能够取得全局最优解,远远超出了采用HCM算法所取得全局最优解的次数,证明了本算法的可推广性。 相似文献
16.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。 相似文献
17.
模糊C均值聚类算法(FCM)是一种比较有代表性的模糊聚类算法,主要是通过迭代更新聚类中心和隶属度矩阵,使目标函数值达到最小.FCM算法还有很多缺陷和不足,其中最主要的就是选取不同的初始中心,会得到不同的聚类结果,影响到聚类的稳定性和准确率.本文对要聚类的数据集采用数据分区技术进行预处理,根据物质质心的定义及质心运动原理... 相似文献
19.
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的. 相似文献
20.
司福明 《长春工程学院学报(自然科学版)》2016,17(2):99-102
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。 相似文献