基因聚类分析中数据预处理方式和相似度的选择 |
| |
作者姓名: | 杨春梅 万柏坤 高晓峰 |
| |
作者单位: | 1. 天津大学生物医学工程与科学仪器系,天津,300072 2. Motorola(China)Electronics Ltd.天津 300457 |
| |
基金项目: | 天津市重点建设学科基金 |
| |
摘 要: | 聚类分析是基因表达数据分析研究的主要技术之一.选择恰当的数据预处理方式和相似性度量,是获得高质量聚类结果的前提.采用具有外部标准的基因表达数据集,分别以Pearson相关系数和Euclidean距离为相似度,以校正的Rand 指数比较了使用分层聚类、K-均值聚类和SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量.结果表明:K-均值聚类和SOMs聚类质量显著优于分层聚类,SOMs聚类质量稍好于K-均值聚类.而且,分层聚类偏好于Pearson相关系数准则和行标准化处理,而应用K-均值聚类和SOMs算法时,则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则.上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.
|
关 键 词: | 基因表达 聚类分析 数据预处理 相似度 Rand指数 |
收稿时间: | 2005-07-21 |
修稿时间: | 2005-07-212005-09-23 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《自然科学进展》浏览原始摘要信息 |
|
点击此处可从《自然科学进展》下载全文 |