基因表达数据处理工具包GEDPT的设计与实现——基于数据库GEO和TCGA |
| |
引用本文: | 孙翛,李雪玲,平兰兰.基因表达数据处理工具包GEDPT的设计与实现——基于数据库GEO和TCGA[J].河南科学,2023(5):635-641. |
| |
作者姓名: | 孙翛 李雪玲 平兰兰 |
| |
作者单位: | 1. 安徽建筑大学电子与信息工程学院;2. 中国科学院合肥物质科学研究院健康与医学技术研究所 |
| |
基金项目: | 国家自然科学基金项目(31371340); |
| |
摘 要: | 针对基因表达谱数据,建立机器学习模型,进行数据挖掘,有助于疾病诊断和发展精准医疗.由于基因表达谱的分析结果受到数据处理平台、数据格式、数据批次等因素的影响,因此,研究人员希望有统一的数据处理平台和数据处理方法,以降低这些影响,提升分析结果的准确性.基于R语言设计并实现了基因表达数据处理工具包GEDPT,旨在对数据库GEO和TCGA的基因表达谱进行统一处理,包括预处理、基因注释、表型注释、样本分组、差异分析和分析结果可视化等.利用GEDPT分析了人类直肠癌放疗相关的基因表达谱,得到了与相关文献报道一致的结果;通过对比基因分布发现,GEDPT对多个微阵列原始数据采用相同的预处理可以降低批次效应带来的负面影响.测试结果验证了GEDPT的实用性和有效性.
|
关 键 词: | GEDPT GEO TCGA 基因表达谱 基因表达分析 R语言 |
|