基于预训练蛋白质语言模型的氨基酸致病突变预测 |
| |
引用本文: | 罗江毅,姚音.基于预训练蛋白质语言模型的氨基酸致病突变预测[J].河南科学,2023(8):1093-1101. |
| |
作者姓名: | 罗江毅 姚音 |
| |
作者单位: | 复旦大学生命科学学院 |
| |
摘 要: | 依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AUC)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具.
|
关 键 词: | 氨基酸致病突变 蛋白质语言模型 无监督学习 深度突变扫描 |
|
|