首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基因聚类分析中数据预处理方式和相似度的选择
引用本文:杨春梅,万柏坤,高晓峰.基因聚类分析中数据预处理方式和相似度的选择[J].自然科学进展,2006,16(3):293-299.
作者姓名:杨春梅  万柏坤  高晓峰
作者单位:1. 天津大学生物医学工程与科学仪器系,天津,300072
2. Motorola(China)Electronics Ltd.天津 300457
基金项目:天津市重点建设学科基金
摘    要:聚类分析是基因表达数据分析研究的主要技术之一.选择恰当的数据预处理方式和相似性度量,是获得高质量聚类结果的前提.采用具有外部标准的基因表达数据集,分别以Pearson相关系数和Euclidean距离为相似度,以校正的Rand 指数比较了使用分层聚类、K-均值聚类和SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量.结果表明:K-均值聚类和SOMs聚类质量显著优于分层聚类,SOMs聚类质量稍好于K-均值聚类.而且,分层聚类偏好于Pearson相关系数准则和行标准化处理,而应用K-均值聚类和SOMs算法时,则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则.上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.

关 键 词:基因表达  聚类分析  数据预处理  相似度  Rand指数
收稿时间:2005-07-21
修稿时间:2005-07-212005-09-23
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《自然科学进展》浏览原始摘要信息
点击此处可从《自然科学进展》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号