首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于局部敏感哈希的K邻近算法识别垃圾短信
引用本文:樊继慧,滕少华.基于局部敏感哈希的K邻近算法识别垃圾短信[J].济南大学学报(自然科学版),2023(6):746-751.
作者姓名:樊继慧  滕少华
作者单位:1. 菲律宾圣保罗大学研究生院;2. 广州理工学院计算机科学与工程学院;3. 广东工业大学计算机学院
基金项目:国家自然科学基金项目(61972102);
摘    要:针对目前垃圾短信的识别算法存在的关键字及频次的规则死板,易于被不法分子探测和规避等问题,提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别;首先定义特征,然后采用局部敏感哈希算法计算向量距离,通过得到的距离衡量矩阵的相似性,量化矩阵相似程度,对本文中提出的优化模型进行实现和训练;基于短信文本内容,运用词频-逆向文本频率算法生成矩阵,利用局部敏感哈希算法求解最相似样本,记录样本类别,将训练结果导入K邻近算法分类器得到最优近邻,在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明,经过K邻近算法分类器后,优化模型垃圾短信分类识别准确率达到98.7%。

关 键 词:垃圾短信识别  K邻近算法  局部敏感哈希  矩阵相似性
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号