首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于N-Gram和动态滑动窗口的改进余弦相似度算法研究
引用本文:张洪,钟凯迪,柴源,魏济,吴艳,谭锦涛,叶文韬.基于N-Gram和动态滑动窗口的改进余弦相似度算法研究[J].成都大学学报(自然科学版),2019,38(2):163-166.
作者姓名:张洪  钟凯迪  柴源  魏济  吴艳  谭锦涛  叶文韬
作者单位:成都大学信息科学与工程学院,四川成都610106;成都大学模式识别与智能信息处理四川省高校重点实验室,四川成都610106;成都大学信息科学与工程学院,四川成都,610106
摘    要:为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.

关 键 词:余弦相似度算法  N-Gram算法  数据清洗  动态滑动窗口

Research on Improved Cosine Similarity Algorithms Based on N-Gram and Dynamic Sliding Window
ZHANG Hong,ZHONG Kaidi,CHAI Yuan,WEI Ji,WU Yan,TAN Jintao,YE Wentao.Research on Improved Cosine Similarity Algorithms Based on N-Gram and Dynamic Sliding Window[J].Journal of Chengdu University (Natural Science),2019,38(2):163-166.
Authors:ZHANG Hong  ZHONG Kaidi  CHAI Yuan  WEI Ji  WU Yan  TAN Jintao  YE Wentao
Institution:(School of Information Science and Technology,Chengdu University,Chengdu 610106,China;Key Laboratory of Pattern Recognition and Intelligent Information Processing of Sichuan,Chengdu University,Chengdu 610106,China)
Abstract:ZHANG Hong;ZHONG Kaidi;CHAI Yuan;WEI Ji;WU Yan;TAN Jintao;YE Wentao(School of Information Science and Technology,Chengdu University,Chengdu 610106,China;Key Laboratory of Pattern Recognition and Intelligent Information Processing of Sichuan,Chengdu University,Chengdu 610106,China)
Keywords:cosine similarity algorithm  N-Gram algorithm  data cleaning  dynamic sliding window
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号