基于局部敏感哈希的K邻近算法识别垃圾短信 |
| |
引用本文: | 樊继慧,滕少华.基于局部敏感哈希的K邻近算法识别垃圾短信[J].济南大学学报(自然科学版),2023(6):746-751. |
| |
作者姓名: | 樊继慧 滕少华 |
| |
作者单位: | 1. 菲律宾圣保罗大学研究生院;2. 广州理工学院计算机科学与工程学院;3. 广东工业大学计算机学院 |
| |
基金项目: | 国家自然科学基金项目(61972102); |
| |
摘 要: | 针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。
|
关 键 词: | 垃圾短信识别 K邻近算法 局部敏感哈希 矩阵相似性 |
|