首页 | 本学科首页   官方微博 | 高级检索  
     

Isomap在基因表达谱数据聚类分析中的应用
引用本文:袁远,季星来,孙之荣,李衍达. Isomap在基因表达谱数据聚类分析中的应用[J]. 清华大学学报(自然科学版), 2004, 44(9): 1286-1289
作者姓名:袁远  季星来  孙之荣  李衍达
作者单位:1. 清华大学,生物信息学教育部重点实验室,北京,100084;清华大学,自动化系,北京,100084
2. 清华大学,生物信息学教育部重点实验室,北京,100084;清华大学,生物科学与技术系,北京,100084
基金项目:国家自然科学基金资助项目 ( 60 2 3 40 2 0 ),科技部重大项目前期研究专项 ( 2 0 0 1CCA0 14 0 0 )
摘    要:基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估

关 键 词:基因表达谱  等容特征映射  k均值算法  聚类算法
文章编号:1000-0054(2004)09-1286-04
修稿时间:2003-09-18

Application of isomap for cluster analyses of gene expression data
YUAN Yuan,,JI Xinglai,,SUN Zhirong,,LI Yanda. Application of isomap for cluster analyses of gene expression data[J]. Journal of Tsinghua University(Science and Technology), 2004, 44(9): 1286-1289
Authors:YUAN Yuan    JI Xinglai    SUN Zhirong    LI Yanda
Affiliation:YUAN Yuan~1,2,JI Xinglai~1,3,SUN Zhirong~1,3,LI Yanda~1,2
Abstract:The cluster analysis of gene expression data is an important means for discovering gene functions and regulatory mechanisms. A novel clustering algorithm based on isometric feature mapping (Isomap) was used to analyze large-scale gene expression data. The algorithm improved the distance measurement between samples by replacing the classical Euclidean distance with the geodesic distance, which helped preserve the intrinsic geometry of the high-dimensional data. Two public gene expression datasets were analyzed, with the results evaluated using a new method named Normalized Cut. The algorithm provides more useful information than other methods, with obvious biological meanings. The optimal cluster number can also be estimated by the method.
Keywords:gene expression profiles  Isomap (isometric feature mapping)  k-means algorithm  clustering algorithm
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号