首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapReduce的基因数据密度层次聚类算法
作者姓名:涂金金  杨明  郭丽娜
作者单位:南京师范大学计算机科学与技术学院;
基金项目:国家自然科学基金(61272222,61003116);江苏省自然科学基金重点重大专项(BK2011005);江苏省自然科学基金(BK2011782);江苏省普通高校研究生科研创新计划项目(CXLX12_0415)资助
摘    要:随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.

关 键 词:MapReduce  密度层次聚类  基因表达数据
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号