摘 要: | 传统的blast+软件包中的blastp搜索,在大数据时代下,序列搜索速度已经慢得难以接受.同源搜索软件的开发在过去十几年取得了巨大进展,但缺乏综合的评估.本研究对7个快速同源搜索软件与blastp进行了综合比较,结果发现,diamond的fast模式总体上来说相比其他软件更快,并且有着最低的错误发现率,是追求快速搜索的最佳选择;在内存消耗上,MMseqs2的算法在内存消耗上非常低,而ghostx则最高;在鉴定的hits数量方面,除了blasp以外,MMseqs2的s7.5模式在中等基因组相似度GSS下得到的结果最多,但s5模式应是更好的选择.随着GSS的降低,ghostx得到的结果最多,而随着GSS的升高,ublast得到的结果最多;在鉴定的Reciprocal Best Hits(RBH)数量上,ghostx在远缘搜索上具有优势,这一优势同样也具有共线性证据支持.在同源搜索方面,除ghostx有43.4%的额外结果外,几乎所有软件的搜索结果之间都有着很大的重叠,并且ghostx还有着非常低的错误发现率,而MMseqs2的s3模式却有着最高的错误发现率.总之,MMseqs2、diam...
|