摘 要: | 协议聚类是协议逆向工程技术中非常重要的一步,针对二进制协议更加透明且满足的协议种类更加广泛的特点,提出了一种基于基因和蛋白质生物信息的二进制协议聚类方法,能够从原始序列角度对大量协议直接进行聚类.本文方法首先将原始二进制报文转化成四进制基因形式,使用快速聚类方法计算碱基两两组合的k-seed值生成距离矩阵,并用UPGMA计算最小距离生成树得到初始分簇;其次,将每一簇四进制协议报文转化成十六进制蛋白质链,得到序列更有语义的方式并采用基于改进mBed算法的聚类方法将其进行高精度聚类.通过对已知和未知协议单纯和混合场景下的测试表明,该方法能够对二进制协议实现高效并且高准确率的聚类,具有较高的应用价值.
|