基于改进音形码的中文敏感词检测算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于改进音形码的中文敏感词检测算法

作者姓名：	周昊沈庆宏

作者单位：	1. 南京大学电子科学与工程学院;2. 江苏金晓电子信息股份有限公司

基金项目：	国家自然科学基金(61673301,61573255)；;江苏省自然科学基金(BK20151299)；

摘要：	在网络信息技术已非常成熟的今天,各类敏感词包括色情、暴力、政治敏感等有害词汇充斥网站和社交软件,对这些词语的检测与识别对营造健康的网络环境非常必要.这些敏感词绝大部分试图通过读音或者字形相近来进行伪装以逃避检测系统.现有的匹配算法可以检测出读音完全一样的词语,但不能准确识别读音相近和字形相近的异体字.为解决这一问题,提出针对模糊匹配的汉字相似度对比算法.首先通过对汉字进行特殊编码,提出一种综合考虑读音及字形特点的音形码汉字相似度改进算法,然后针对传统字典树,添加了精度参数来设置匹配精度,以此完成敏感词检测.实验结果计算表明,在常用相似汉字数据集上,匹配准确度提高8%～39%,错误率减少6%～38%.
关键词：	敏感词模糊匹配汉字编码汉字相似度完全匹配
本文献已被 CNKI 等数据库收录！