首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。  相似文献   

2.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

3.
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。  相似文献   

4.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

5.
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值.  相似文献   

6.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

7.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

8.
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.  相似文献   

9.
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。  相似文献   

10.
交互式数据迁移系统及其相似检测效率优化   总被引:7,自引:0,他引:7  
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度.此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性.  相似文献   

11.
为了给出两个向量的“数量积”的几何意义,现行人教版教材引入了向量的投影和射影的概念.二者字面意思基本一样,但“投影”是一个实数,“射影”是一个向量,二者不是同一类事物,而且对向量的射影的表述有不当之处.为此,本文给出了“一个向量在另一个向量方向上的射影向量和射影向量系数”的概念,“射影向量系数(射影系数)”这一概念,为作者本人首次提出,具有重要的教学价值和理论价值.  相似文献   

12.
讨论一类具伪单调性的广义集值向量拟均衡问题,并给出在向量变分不等式与向量优化问题中的应用.  相似文献   

13.
 以纯向量为工具研究几何问题,将向量基本定理用几何形式表示,可以将几何中的基本元素点、线、面、体用一个公式表示,实现了几何问题与向量问题相互转化,从理论上给出了几何问题和代数问题相互转化的又一方法.这一方法不仅涵盖了笛卡儿的坐标法,而且从非正交的角度推广了笛卡儿的坐标法,并由此引出了许多新的结论、方法和题型,并从几何的角度推广了向量基本定理,给出了其确切的几何解释,形成了相应的向量几何理论.从实体几何的角度看,它解决了几何应用过程中的许多计算、证明和作图问题,并且丰富了欧几里得空间的内涵.  相似文献   

14.
给出了介质极化磁化的四维形式,证明了M与P仅能构成的两个独立的洛伦兹不变量。  相似文献   

15.
16.
利用质点角位移矢量复合的公式和两次绕相交轴有限转动的角位移矢量复合的公式,定义了三维角矢量及其运算规则,创立了角矢量空间的基本理论体系.结果表明,不但质点的运动和刚体的有限转动都能用这种全新的理论体系来描述,而且,还揭示了质点运动和刚体转动的各种关系式,其关系式简洁,物理意义突出.  相似文献   

17.
对竞赛图的得分向量进行分类,(h)=[h]∪ ,给出每一类即[h]和的特征定理.  相似文献   

18.
借用纯量化方法和不动点定理引入和研究H-空间中向量值的多值映家的向量变分不等式定理、向量鞍点定理及向量极大极小定理.  相似文献   

19.
向量积是向量代数中一种重要运算,与矩阵类似不满足乘法交换律.在实际应用中向量积具有双重性(大小和方向是解决问题的核心).利用它可以求空间中直线和平面的方程,更重要的是用它可以建立微分几何中Frenet标架.  相似文献   

20.
阐述了用图解方法求解二次曲线曲率中心的方法,并从数学方面加以证明.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号