首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种中文相似重复记录的检测方法
引用本文:王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报(自然科学版),2005,31(2):37-40.
作者姓名:王志军  乐嘉锦
作者单位:东华大学计算机科学与技术学院,上海,200051
摘    要:要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。

关 键 词:相似重复记录  向量空间  特征向量  欧氏距离
修稿时间:2004年1月5日

An Approach for Detecting Approximately Duplicate Records In Chinese
WANG Zhi-jun,LE Jia-jin.An Approach for Detecting Approximately Duplicate Records In Chinese[J].Journal of Donghua University,2005,31(2):37-40.
Authors:WANG Zhi-jun  LE Jia-jin
Abstract:
Keywords:approximately duplicate records  vector space  characteristic vector  Euclidean distance
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号