首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进音形码的中文敏感词检测算法
作者姓名:周昊  沈庆宏
作者单位:1. 南京大学电子科学与工程学院;2. 江苏金晓电子信息股份有限公司
基金项目:国家自然科学基金(61673301,61573255);;江苏省自然科学基金(BK20151299);
摘    要:在网络信息技术已非常成熟的今天,各类敏感词包括色情、暴力、政治敏感等有害词汇充斥网站和社交软件,对这些词语的检测与识别对营造健康的网络环境非常必要.这些敏感词绝大部分试图通过读音或者字形相近来进行伪装以逃避检测系统.现有的匹配算法可以检测出读音完全一样的词语,但不能准确识别读音相近和字形相近的异体字.为解决这一问题,提出针对模糊匹配的汉字相似度对比算法.首先通过对汉字进行特殊编码,提出一种综合考虑读音及字形特点的音形码汉字相似度改进算法,然后针对传统字典树,添加了精度参数来设置匹配精度,以此完成敏感词检测.实验结果计算表明,在常用相似汉字数据集上,匹配准确度提高8%~39%,错误率减少6%~38%.

关 键 词:敏感词  模糊匹配  汉字编码  汉字相似度  完全匹配
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号