首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

2.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

3.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

4.
为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段之间的层次语义和依赖关系;将语义引入到优先队列算法中,提出了改进的优先队列法(IPQM),在计算记录之间的相似度时,显式考虑字段之间的层次语义关系,对不同的字段类型调用不同的相似度计算方法.同时将语义规则库引入到数据清理框架,在预处理阶段利用语义来处理等价类型错误,在处理阶段利用IPQM来计算记录之间的相似度.实验结果表明该框架提高了数据清理的质量,遗漏率低于7%,误判率不超过3%.  相似文献   

5.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

6.
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。  相似文献   

7.
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。  相似文献   

8.
针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。  相似文献   

9.
具有数据清理功能的交互式数据迁移及应用   总被引:7,自引:0,他引:7  
针对众多论文对数据迁移的研究多是泛泛地介绍数据迁移的方法,而没有考虑数据迁移过程中的数据清理问题,提出了一种具有数据清理功能的交互式数据迁移技术.该技术把数据迁移和数据清理紧密地结合在一起,具有开放的规则库和算法库.通过在规则库中定义规则以及从算法库中选择合适的清理算法,不仅能灵活、准确地完成数据的迁移,还能保证数据迁移后新系统的数据质量.该技术被应用于医疗保险信息系统再工程项目,取得很好的效果,从而说明这种数据迁移技术在实践中是可行的.  相似文献   

10.
基于综合相似度迁移的协同过滤算法   总被引:1,自引:0,他引:1  
数据稀疏性问题是传统协同过滤算法的主要瓶颈之一.迁移学习通常是利用目标领域与辅助领域的潜在关系,对辅助领域进行知识迁移,以此来提高目标领域的推荐质量.现有的基于相似度迁移模型,普遍只利用了用户评分信息,并且在评分相似度计算上忽略了用户评分标准个性差异.针对这些问题,提出了一种综合相似度迁移模型,在相似度计算上,即利用了用户评分信息同时也利用了用户属性信息,并且考虑了用户间对满意度的打分标准的差异性,采用了用户评分分布一致性来衡量用户评分相似度的方法,提高了相似度计算的准确性,从而提高了数据迁移的质量.实验结果表明,该模型较其他算法能比较有效地缓解数据稀疏性问题.  相似文献   

11.
当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后才可应用于劣质数据动态清理中,不仅效率低,且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法,劣质数据主要包括错误数据、重复数据和不完整数据,利用统计学求期望方法对错误进行清理,计算得到一个可信区间的基准范围,依据该基准范围对错误数据进行清理。利用编辑距离获取两个字符串之间的相似度,通过得到的相似度对重复数据进行动态清理。对嵌入式实时系统数据库中所有记录的不完整性进行评估,依据评估结果决定是否清除相应数据。实验结果表明,所提方法针对劣质数据有很高的清理准确性。  相似文献   

12.
根据声波方程速度反演的近似方法.利用人机联作解释系统(Geoquest—IES)中的程序发展子系统(PDS),编制了地震资料偏移归位处理程序.并利用该程序对理论模型数据和实际地震数据进行了处理.计算结果表明,此种偏移方法计算速度快,是一种非常有效的偏移方法.  相似文献   

13.
本文提出了中小型净化空调系统使用两级过滤处理的设想。通过对传统的三级过滤净化系统及新型的二级过滤净化系统内各点处浓度的分析及净化效果的分析,证明了二级过滤处理在中小型净化空调系统中应用的可能性、经济性和简单性,并指出了采用这一系统的前提条件和对新风的预处理方法。通过对一工程实例的分析,证明了该设想在实际中的可行性。  相似文献   

14.
AutoDraw 绘图软件包是一个建立在美国GOLD公司Concept32/2750小型机系统上的有效通用自动绘图辅助软件。本文介绍其屏幕菜单交互作图方法的实现,以及介绍一种建立图形数据文件的方法。为交互绘图,CAD提供一个有效的图形文件化手段。  相似文献   

15.
针对三维地震资料处理,尤其是三维叠前深度偏移处理,提出一套交互三维速度模型建立方法,并在工作站上设计与实现了这套交互三维速度模型建立系统。该系统可按交互方式进行叠加速度、偏移速度和层速度分析,有效地建立三维层位结构和速度模型,实现三维模型的可视化,提高速度模型精度,在实际的三维资料处理中效果良好。  相似文献   

16.
数据清洗前的预处理方法   总被引:2,自引:0,他引:2  
为提高数据清洗的质量,提出消除脏数据域、使用统一的缩写、数据的转换等预处理方法,基于这3种方法和链表存储复制记录算法,设计一个数据清洗的系统,与其他方法的效率与准确程度比较可知,该系统的数据准确程度要高于现有的数据清洗系统.  相似文献   

17.
本文在引进美国Gould公司Coneept32/2750小型计算机CAD系统开发交互式集成电路版图CAD软件中,介绍一种建立版图数据结构及其管理方法。对图形实行数字化,文件化,提高了图形编辑效率。为设计LSI版图CAD系统软件提供了一个有效的图形文件化手段。  相似文献   

18.
考虑电网出现故障时,仅依靠开关量状态信息进行诊断,诊断信息冗余度低,复杂故障情况下会影响诊断结果的准确性.引入电气量信息,提出了模型预测和数据清洗方法,建立电网故障诊断系统.利用模型预测得到准确的电气量信息,建立清洗规则和逻辑推理规则,分别对开关量进行数据清洗和验证故障信息.在此基础上,利用溯因推理网络(abductive reasoning network,ARN)对故障信息进行诊断,得出候选故障.仿真结果验证了该方法的有效性和准确性.  相似文献   

19.
本文着重介绍了在排料CAD系统中人机交互方式实现优化布局的方法及用户接口的数据结构。人机交互模块,作为自动排料系统的有益补充,使排料布局更为优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号