基于ProtBert预训练模型的HLA-Ⅰ和多肽的结合预测算法 |
| |
引用本文: | 周丰丰,张亚琪.基于ProtBert预训练模型的HLA-Ⅰ和多肽的结合预测算法[J].吉林大学学报(理学版),2023(3):651-657. |
| |
作者姓名: | 周丰丰 张亚琪 |
| |
作者单位: | 1. 吉林大学计算机科学与技术学院;2. 吉林大学符号计算与知识工程教育部重点实验室 |
| |
摘 要: | 针对现有的第Ⅰ类HLA(HLA-Ⅰ)分子与多肽结合亲和力预测算法在特征构造时依赖传统序列评分函数的问题,为突破用经典机器学习算法构造氨基酸序列特征的局限性,提出一种基于蛋白质预训练模型ProtBert的HLA-Ⅰ与多肽的结合预测算法ProHLAⅠ.该算法利用生命体语言与文本语言在组成上的共性,将氨基酸序列类比句子,通过整合ProtBert预训练模型、 BiLSTM编码和注意力机制的网络结构优势,对HLA-Ⅰ序列和多肽序列进行特征提取,从而实现HLA-Ⅰ独立于位点的多肽结合预测.实验结果表明,该模型在两组独立测试集中均取得了最优性能.
|
关 键 词: | HLA-Ⅰ结合肽预测 自然语言处理 注意力机制 BERT模型 双向长短期记忆模型(BiLSTM) |
|