期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王志军乐嘉锦《东华大学学报(自然科学版)》2005,31(2):37-40

要把数据表中的相似重复记录标识出来，常用的方法是先将所有记录按照某个关键字进行索引，然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法，然后在一个变长窗口内进行记录的两两比对，以此检测带有编辑错误的中文相似重复记录。相似文献

2.

一种基于聚类树的增量式数据清洗算法 总被引：2，自引：0，他引：2

刘芳何飞《华中科技大学学报(自然科学版)》2005,33(3):46-48

研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 . 相似文献

3.

基于Apriori算法的车辆检测相似重复记录消除方法

安相璧杜艾永李树珉《天津大学学报(自然科学与工程技术版)》2010,(7)

为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值. 相似文献

4.

对基于SNM数据清洗算法的优化

张建中方正熊拥军袁小一《中南大学学报(自然科学版)》2010,41(6)

对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重.研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势. 相似文献

5.

铝电解监控系统重复记录辨识与噪音识别算法

陈湘涛张建中李劼刘业翔《中南大学学报(自然科学版)》2004,35(6):915-919

在新型的铝电解网络监控系统中,需要对大量的监控数据构建数据仓库,为此,针对其重复记录的数据预处理问题进行了研究.在属性集的基础上,提出属性重复量、记录重复量等定义,并给出重复记录辨识的一般算法IRA及其推广算法GIRA;对重复记录集中的噪音处理,提出一种基于距离的噪音识别算法INA;以实例说明了算法的具体实现过程. 相似文献

6.

粒子群优化BP神经网络用于重复记录检测

马翔《辽宁工程技术大学学报(自然科学版)》2010,29(5)

针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。相似文献

7.

一种有效检测汉语相似重复记录的方法

邹亚会《科技情报开发与经济》2011,21(21):133-135

从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。相似文献

8.

改进的SNM中文语义重复记录检测算法

袁满穆永豪王贵友于再富《吉林大学学报(信息科学版)》2021,39(3):348-356

为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相... 相似文献

9.

基于关键属性组的相似重复记录检测方法研究

宋国兴周喜马博赵凡《科学技术与工程》2017,17(19)

对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。相似文献