基因聚类分析中数据预处理方式和相似度的选择期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基因聚类分析中数据预处理方式和相似度的选择

作者姓名：	杨春梅万柏坤高晓峰

作者单位：	1. 天津大学生物医学工程与科学仪器系,天津,300072 2. Motorola(China)Electronics Ltd.天津 300457

基金项目：	天津市重点建设学科基金

摘要：	聚类分析是基因表达数据分析研究的主要技术之一．选择恰当的数据预处理方式和相似性度量，是获得高质量聚类结果的前提．采用具有外部标准的基因表达数据集，分别以Pearson相关系数和Euclidean距离为相似度，以校正的Rand 指数比较了使用分层聚类、K-均值聚类和SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量．结果表明：K-均值聚类和SOMs聚类质量显著优于分层聚类，SOMs聚类质量稍好于K-均值聚类．而且，分层聚类偏好于Pearson相关系数准则和行标准化处理，而应用K-均值聚类和SOMs算法时，则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则．上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.
关键词：	基因表达聚类分析数据预处理相似度 Rand指数
收稿时间：	2005-07-21
修稿时间：	2005-07-212005-09-23
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《自然科学进展》浏览原始摘要信息
	点击此处可从《自然科学进展》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏