首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。  相似文献   

2.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

3.
针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。  相似文献   

4.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高.  相似文献   

5.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

6.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

7.
为实现大数据环境下高效、精准的商品推荐,将协同过滤思想与信息检索理论有机融合,提出基于学习排序(LTR)的并行协同过滤推荐算法.首先利用相似物品-物品网络图结构共享参数的方法减少参数,通过Pairwise方法构造目标函数,并利用梯度上升法得到参数.还提出了通过使用层次聚类的方法对差异性较大的相似图进行分裂,以保证推荐的准确度.最后给出大数据平台Spark下该推荐算法的并行化实现方案.在真实数据集Netflix上的实验结果表明:提出的算法不仅在召回率和准确率上有所提高,而且计算效率高效,表明该方法可以应用于大数据场景中的推荐服务.  相似文献   

8.
以云计算和大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。  相似文献   

9.
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.  相似文献   

10.
交互式数据迁移系统及其相似检测效率优化   总被引:7,自引:0,他引:7  
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度.此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性.  相似文献   

11.
杨文桥    郑力新    朱建清    董进华    郑义姚    刘颖    汪泰伸   《华侨大学学报(自然科学版)》2021,(1):97-102
设计一种散乱点云数据边缘检测算法,从而快速、精确地提取边缘特征.该算法以点云的局部特征为基础,通过分析点云数据各点的法向特性,构建各点k近邻法向夹角特征、曲率特征、距离特征,并在高斯函数的约束下完成点云边缘特征的检测.利用公共数据进行多组实验,对比不同算法下的检测效果.结果表明:该算法提取点云边缘特征的速度更快、效果更好.  相似文献   

12.
图像或视频中的人员目标检测,一般采用单个深层神经网络检测器(SSD)算法.但在复杂场景下,SSD算法因场景复杂、物体重叠、遮挡等干扰,检测精度大大降低.在SSD算法中加入反卷积网络反馈用于增加环境感知信息;采用辅助损失函数以促进损失降低,并将复杂场景中的目标检测多分类问题转换为二分类问题.以无人机拍摄的复杂场景下的行人数据集为例进行人员目标检测实验,对比分析多种检测方法的准确率表明,改进后的SSD算法在检测速度和识别精度上均提高明显.  相似文献   

13.
针对目前散乱点云数据配准算法在精度、速度和优化等方面存在的问题,提出一种基于粒子群优化算法的点云数据配准算法.该算法首先根据数据点之间曲率的相似度函数,采用粒子群优化算法在两组点云数据中搜索可以匹配的点对集合,然后用最近点迭代算法进行二次配准,实现了两组散乱点云数据的精确配准.对比实验表明,该算法配准速度快,效果好.  相似文献   

14.
考虑Spark大数据平台内存计算框架在迭代计算的优势,提出Spark平台下KNN-ALS模型的推荐算法.针对矩阵分解算法只考虑隐含信息而忽视相似度信息的缺陷,将相似度信息加入评分预测中,并采用适合并行化的交替最小二乘法进行模型最优.在MovieLens数据集上的实验表明:该算法能够提高协同过滤推荐算法在大数据集下的处理效率,且加速比也达到并行处理的线性要求,相比其他方法有较好的精度.  相似文献   

15.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

16.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

17.
提出一种基于2D先验的3D目标判定算法.首先用轻量级MobileNet网络替换经典SSD的VGG-16网络,构建出MobileNet-SSD目标检测模型;其次,通过改进网络结构,提高模型对小目标的检测能力,并引入Focal Loss函数来解决正负样本不均衡和易分样本占比较高的问题;在相同数据集上,将改进算法与Faster R-CNN、 YOLOv3及MobileNet-SSD进行对比测试,其平均精度mAP分别提高了7.2%、 8.8%和10.6%;最后,通过改进算法获取ROI,利用深度相机将二维ROI转换为ROI点云,并借助直通滤波来判断目标物体是否为真实场景物体,既省去了传统点云识别中的诸多步骤又避免了点云深度学习中三维数据集制作难度较大的问题,在识别速度和识别精度上达到了较好的平衡.  相似文献   

18.
为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维.  相似文献   

19.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

20.
针对传统ICP(Iterative Closest Points)配准算法计算量大、收敛速度慢且要求待配准的两片点云数据重合程度较高的问题提出了一种改进方法:首先基于均匀采样法精简点云数据;其次采用Kd-Tree算法查找最近点并基于距离阈值剔除错误匹配点;接着优化目标误差函数,计算点到切平面的距离;最后采用多角度的全局配准方法将两片重合程度最小的点云较好地配准在一起.通过对比实验,验证了本文的改进型ICP算法在运行时间和配准精度上都对传统的ICP算法做出了较大改进,取得了较好的配准效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号