基于MapReduce的基因数据密度层次聚类算法 |
| |
作者姓名: | 涂金金 杨明 郭丽娜 |
| |
作者单位: | 南京师范大学计算机科学与技术学院; |
| |
基金项目: | 国家自然科学基金(61272222,61003116);江苏省自然科学基金重点重大专项(BK2011005);江苏省自然科学基金(BK2011782);江苏省普通高校研究生科研创新计划项目(CXLX12_0415)资助 |
| |
摘 要: | 随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.
|
关 键 词: | MapReduce 密度层次聚类 基因表达数据 |
本文献已被 CNKI 等数据库收录! |
|