基于Attention Bi-LSTM模型构建蛋白质诱饵序列库 |
| |
作者姓名: | 曾祥利 马洁 朱云平 舒坤贤 |
| |
作者单位: | 重庆邮电大学 计算机科学与技术学院 大数据生物智能重庆市重点实验室,重庆 4000652;国家蛋白质科学中心(北京) 蛋白质组研究中心 蛋白质组学国家重点实验室,北京 102206 |
| |
基金项目: | 国家自然科学基金 (61501071, 21475150);国家高技术研究发展计划 (2015AA020108, 2015AA020101) |
| |
摘 要: | 利用计算机技术在海量质谱数据中鉴定蛋白质序列是蛋白质组学研究最基本且重要的任务之一,诱饵序列库构建的好坏是蛋白质鉴定质量控制成功的关键之一。发展了基于注意力机制-双向长短期记忆神经网络(Attention Bi-LSTM)的诱饵序列构建方法,整体研究基于编码-解码框架,采用双向长短期记忆神经网络在解决传统循环神经网络梯度消失问题的同时,可以捕获前向后向更多依赖信息对处理序列数据更加有优势;引入注意力机制提高模型对目标序列库和诱饵序列库相关程度的关注度;并与目前常用的随机和反转算法进行比较。结果显示,基于Attention Bi-LSTM模型构建的诱饵序列库能满足理想诱饵序列库的各项特征要求;在不同大小实验数据集以及谱图、肽段、蛋白3个层面对比分析,显示构建的诱饵序列库与其他方法比具有更好的灵敏性。因此,Attention Bi-LSTM是一种很有潜力的诱饵序列库构建方法。
|
关 键 词: | 蛋白质鉴定 诱饵序列库 长短期记忆神经网络 注意力机制 |
收稿时间: | 2018-11-20 |
修稿时间: | 2020-04-25 |
|
| 点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《重庆邮电大学学报(自然科学版)》下载免费的PDF全文 |
|