共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
一种基于聚类树的增量式数据清洗算法 总被引:2,自引:0,他引:2
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 . 相似文献
4.
《华中科技大学学报(自然科学版)》2010,(2)
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%. 相似文献
5.
在新型的铝电解网络监控系统中,需要对大量的监控数据构建数据仓库,为此,针对其重复记录的数据预处理问题进行了研究.在属性集的基础上,提出属性重复量、记录重复量等定义,并给出重复记录辨识的一般算法IRA及其推广算法GIRA;对重复记录集中的噪音处理,提出一种基于距离的噪音识别算法INA;以实例说明了算法的具体实现过程. 相似文献
6.
7.
马翔 《辽宁工程技术大学学报(自然科学版)》2010,29(5)
针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。 相似文献
8.
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值. 相似文献
9.
邹亚会 《科技情报开发与经济》2011,21(21):133-135
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。 相似文献
10.
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 相似文献
11.
针对关系型数据中多维敏感属性隐私差异所引起的隐私保护效用降低问题,提出了一种能有效表达多维敏感属性隐私差异的隐私保护数据发布方法.基于一种多维桶分组技术(MSB)对数据集的多维敏感属性隐私差异以及记录价值进行量化区分,给出记录分组优先级参数的计算方法,进而可实现基于记录分组优先级参数多维桶记录分组(TPSB)算法的隐私保护数据发布.实验结果表明:在权重参数合理赋值条件下,该方法在保证数据发布效率的同时可有效提升数据发布的质量. 相似文献
12.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。 相似文献
13.
针对民用建筑"四节一环保"原始数据中存在的数据质量问题,使用多种方法实现数据清洗与数据修复。数据清洗方面,重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中,识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面,重点关注缺失值的填补及基于模型的数据修正。其中,缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法,并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型,拟合建筑运行能耗与各解释变量间的关系,对上海市建筑运行能耗相关数据进行数据修复。结果显示,单栋建筑能耗数据适合采用箱线图内限来识别异常记录,并使用中位数填补缺失数据;上海市建筑运行能耗相关数据中,岭回归模型的拟合情况最好。 相似文献
14.
《青岛大学学报(自然科学版)》2017,(2)
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。 相似文献
15.
为弥补传统的基于文本相似函数(如编辑距离、语音距离等)的方法在重复记录的识别方面的不足,对记录内部单个字段的语义以及字段之间的语义进行了研究;采用字段名与统计分析相结合的方法来识别字段内部的语义,采用语义规则库来识别字段之间的层次语义和依赖关系;将语义引入到优先队列算法中,提出了改进的优先队列法(IPQM),在计算记录之间的相似度时,显式考虑字段之间的层次语义关系,对不同的字段类型调用不同的相似度计算方法.同时将语义规则库引入到数据清理框架,在预处理阶段利用语义来处理等价类型错误,在处理阶段利用IPQM来计算记录之间的相似度.实验结果表明该框架提高了数据清理的质量,遗漏率低于7%,误判率不超过3%. 相似文献
16.
基于无监督学习的数据清洗算法 总被引:2,自引:0,他引:2
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别. 相似文献
17.
《哈尔滨商业大学学报(自然科学版)》2017,(4)
海量航班延误数据中包含着少部分在恶劣天气条件下,仍有着较低延误水平的记录,这些案例为后期研究管制员在恶劣天气下的应对策略提供了学习样本.因涉及的变量较多,在分析高维空间特性的基础上,详述了高维属性在运用传统异常检测算法时的不适应性,重点阐述了一种基于谱聚类投影的异常检测算法,先将高维属性依此投影到低维空间,再运用局部离群因子作为隶属度函数进行异常检测,不仅能有效地处理高维数据的稀疏性问题,也能处理混合型的数据集,可解释性强.最后运用此算法高效地识别出了恶劣气象条件下低延误值的实例. 相似文献
18.
针对目标属性识别的特点,建立了基于粗糙集(Rough Sets, RS)的数据分组处理(Group Method of Data Handling, GMDH)神经网络分类模型.该模型较好地解决了采用高维数据集训练神经网络效率低,神经网络结构规模较大的问题.同时为了提高高维数据集合的属性约简效率,改进了集合近似质量属性约简算法.最后,通过与BP(Back-Propagation, BP)神经网络分类能力的仿真对比,结果表明,基于粗糙集的数据分组处理神经网络分类模型分类能力优于BP神经网络模型,满足现代防空作战对目标属性识别的需求,基于快速求核和集合近似质量的属性约简算法快速有效. 相似文献
19.
交互式数据迁移系统及其相似检测效率优化 总被引:7,自引:0,他引:7
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度.此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性. 相似文献