基于序列信息的长链非编码RNA的亚细胞多定位预测 |
| |
引用本文: | 闫冬雪,陈颖丽.基于序列信息的长链非编码RNA的亚细胞多定位预测[J].内蒙古大学学报(自然科学版),2022(1):38-47. |
| |
作者姓名: | 闫冬雪 陈颖丽 |
| |
作者单位: | 内蒙古大学物理科学与技术学院 |
| |
基金项目: | 国家自然科学基金资助项目(61861035); |
| |
摘 要: | 长链非编码RNA(Long non-coding RNA,lncRNA)是指一类长度超过200个核苷酸、没有编码蛋白质的能力或编码蛋白质的能力极低的RNA分子,它与人类生命活动和多种疾病息息相关。有研究表明lncRNA的亚细胞定位可以为其功能研究提供重要的生物学信息。越来越多的实验数据证实,lncRNA具有多个位置标记,而现有算法大多集中在识别单个位置标记的lncRNA上。因此,为了识别lncRNA的亚细胞多定位,引入了k-mer核苷酸组成和序列顺序相关因子作为lncRNA的特征向量,采用方差分析(ANOVA)筛选出最优特征子集,基于支持向量机算法来预测lncRNA的亚细胞多定位问题。通过5折交叉检验对模型进行评估。结果表明,基准数据集和独立数据集的预测位置覆盖率分别达到87.22%和71.56%。
|
关 键 词: | 长链非编码RNA 亚细胞多定位 特征筛选 支持向量机 |
|
|