基于模式物种的快速同源搜索软件基准测试 |
| |
引用本文: | 王殷伟,武晶菁,张宸宁,华宜家,李鹏,严洁.基于模式物种的快速同源搜索软件基准测试[J].南京师大学报,2022(2):44-51+80. |
| |
作者姓名: | 王殷伟 武晶菁 张宸宁 华宜家 李鹏 严洁 |
| |
作者单位: | 南京师范大学生命科学学院 |
| |
基金项目: | 国家自然科学基金项目(3167229);;江苏省高等学校自然科学研究重大项目(19KJA330001); |
| |
摘 要: | 传统的blast+软件包中的blastp搜索,在大数据时代下,序列搜索速度已经慢得难以接受.同源搜索软件的开发在过去十几年取得了巨大进展,但缺乏综合的评估.本研究对7个快速同源搜索软件与blastp进行了综合比较,结果发现,diamond的fast模式总体上来说相比其他软件更快,并且有着最低的错误发现率,是追求快速搜索的最佳选择;在内存消耗上,MMseqs2的算法在内存消耗上非常低,而ghostx则最高;在鉴定的hits数量方面,除了blasp以外,MMseqs2的s7.5模式在中等基因组相似度GSS下得到的结果最多,但s5模式应是更好的选择.随着GSS的降低,ghostx得到的结果最多,而随着GSS的升高,ublast得到的结果最多;在鉴定的Reciprocal Best Hits(RBH)数量上,ghostx在远缘搜索上具有优势,这一优势同样也具有共线性证据支持.在同源搜索方面,除ghostx有43.4%的额外结果外,几乎所有软件的搜索结果之间都有着很大的重叠,并且ghostx还有着非常低的错误发现率,而MMseqs2的s3模式却有着最高的错误发现率.总之,MMseqs2、diam...
|
关 键 词: | 同源搜索 直系同源推断 RBH 快速算法 序列比较 |
|
|