期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《青岛大学学报(自然科学版)》2017,(2)

针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。相似文献

2.

一种基于聚类树的增量式数据清洗算法 总被引：2，自引：0，他引：2

刘芳何飞《华中科技大学学报(自然科学版)》2005,33(3):46-48

研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 . 相似文献

3.

粒子群优化BP神经网络用于重复记录检测

马翔《辽宁工程技术大学学报(自然科学版)》2010,29(5)

针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。相似文献

4.

改进的SNM中文语义重复记录检测算法

袁满穆永豪王贵友于再富《吉林大学学报(信息科学版)》2021,39(3):348-356

为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高. 相似文献

5.

基于关键属性组的相似重复记录检测方法研究

宋国兴周喜马博赵凡《科学技术与工程》2017,17(19)

对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。相似文献

6.

关键属性组的相似重复记录检测方法研究

《科学技术与工程》2017,(19)

对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。相似文献

7.

基于学习排序的并行协同过滤推荐算法

肖菁袁凌黄昌勤吴不晓《华中科技大学学报(自然科学版)》2018,(3):36-41

为实现大数据环境下高效、精准的商品推荐,将协同过滤思想与信息检索理论有机融合,提出基于学习排序(LTR)的并行协同过滤推荐算法.首先利用相似物品-物品网络图结构共享参数的方法减少参数,通过Pairwise方法构造目标函数,并利用梯度上升法得到参数.还提出了通过使用层次聚类的方法对差异性较大的相似图进行分裂,以保证推荐的准确度.最后给出大数据平台Spark下该推荐算法的并行化实现方案.在真实数据集Netflix上的实验结果表明:提出的算法不仅在召回率和准确率上有所提高,而且计算效率高效,表明该方法可以应用于大数据场景中的推荐服务. 相似文献

8.

基于大数据的云计算网络协同创新平台的研究

《安徽理工大学学报(自然科学版)》2017,(3)

以云计算和大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。相似文献

9.

大数据量的高效重复记录检测方法

《华中科技大学学报(自然科学版)》2010,(2)

针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%. 相似文献

10.

交互式数据迁移系统及其相似检测效率优化 总被引：7，自引：0，他引：7

陈伟丁秋林谢强《华南理工大学学报(自然科学版)》2004,32(2):58-61

为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理．为了提高该系统中相似重复记录的检测效率,在相似重复记录检测中采用长度过滤等方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了整个数据迁移系统的数据迁移速度．此外,构造了合适的实验环境,作了大量的检测实验,实验结果验证了长度过滤方法的科学性．相似文献

11.

高斯函数约束下的多判别参数散乱点云边缘检测

杨文桥郑力新朱建清董进华郑义姚刘颖汪泰伸《华侨大学学报(自然科学版)》2021,(1):97-102

设计一种散乱点云数据边缘检测算法,从而快速、精确地提取边缘特征.该算法以点云的局部特征为基础,通过分析点云数据各点的法向特性,构建各点k近邻法向夹角特征、曲率特征、距离特征,并在高斯函数的约束下完成点云边缘特征的检测.利用公共数据进行多组实验,对比不同算法下的检测效果.结果表明:该算法提取点云边缘特征的速度更快、效果更好. 相似文献

12.

复杂场景图像中人员目标检测算法的改进

郝叶林罗兵杨锐常津津《五邑大学学报(自然科学版)》2018,(1)

图像或视频中的人员目标检测,一般采用单个深层神经网络检测器(SSD)算法.但在复杂场景下,SSD算法因场景复杂、物体重叠、遮挡等干扰,检测精度大大降低.在SSD算法中加入反卷积网络反馈用于增加环境感知信息;采用辅助损失函数以促进损失降低,并将复杂场景中的目标检测多分类问题转换为二分类问题.以无人机拍摄的复杂场景下的行人数据集为例进行人员目标检测实验,对比分析多种检测方法的准确率表明,改进后的SSD算法在检测速度和识别精度上均提高明显. 相似文献

13.

基于粒子群优化算法的散乱点云数据配准

段德全李俊芬申培萍《广西师范大学学报(自然科学版)》2008,26(3)

针对目前散乱点云数据配准算法在精度、速度和优化等方面存在的问题,提出一种基于粒子群优化算法的点云数据配准算法.该算法首先根据数据点之间曲率的相似度函数,采用粒子群优化算法在两组点云数据中搜索可以匹配的点对集合,然后用最近点迭代算法进行二次配准,实现了两组散乱点云数据的精确配准.对比实验表明,该算法配准速度快,效果好. 相似文献

14.

Spark平台下KNN-ALS模型推荐算法

邹小波王佳斌詹敏《华侨大学学报(自然科学版)》2019,40(2)

考虑Spark大数据平台内存计算框架在迭代计算的优势,提出Spark平台下KNN-ALS模型的推荐算法.针对矩阵分解算法只考虑隐含信息而忽视相似度信息的缺陷,将相似度信息加入评分预测中,并采用适合并行化的交替最小二乘法进行模型最优.在MovieLens数据集上的实验表明:该算法能够提高协同过滤推荐算法在大数据集下的处理效率,且加速比也达到并行处理的线性要求,相比其他方法有较好的精度. 相似文献

15.

大数据环境下决策树的研究

《太原师范学院学报(自然科学版)》2021,(2)

传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向. 相似文献

16.

一种改进的面向VLDB数据质量处理算法

王咏梅嵇晓汪恒杰冯安平《科技咨询导报》2009,(2):43-45

数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。相似文献

17.

基于2D先验的3D目标判定算法

下载免费PDF全文

东辉解振宁孙浩陈炳兴姚立纲《福州大学学报(自然科学版)》2023,51(3):387-394

提出一种基于2D先验的3D目标判定算法.首先用轻量级MobileNet网络替换经典SSD的VGG-16网络，构建出MobileNet-SSD目标检测模型；其次，通过改进网络结构，提高模型对小目标的检测能力，并引入Focal Loss函数来解决正负样本不均衡和易分样本占比较高的问题；在相同数据集上，将改进算法与Faster R-CNN、 YOLOv3及MobileNet-SSD进行对比测试，其平均精度mAP分别提高了7.2%、 8.8%和10.6%;最后，通过改进算法获取ROI,利用深度相机将二维ROI转换为ROI点云，并借助直通滤波来判断目标物体是否为真实场景物体，既省去了传统点云识别中的诸多步骤又避免了点云深度学习中三维数据集制作难度较大的问题，在识别速度和识别精度上达到了较好的平衡. 相似文献

18.

结合PCA的t-SNE算法的并行化实现方法

下载免费PDF全文

徐旸王佳斌彭凯《华侨大学学报(自然科学版)》2022,(5):685-692

为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维. 相似文献

19.

一种基于目标函数的局部离群点检测方法

周玉朱文豪孙红玉《东北大学学报(自然科学版)》2022,43(10):1405-1412

针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能. 相似文献

20.

点云数据的自动配准算法研究

范梦怡黄淑燕张禹黄幼萍《东莞理工学院学报》2021,28(3):65-70,122

针对传统ICP(Iterative Closest Points)配准算法计算量大、收敛速度慢且要求待配准的两片点云数据重合程度较高的问题提出了一种改进方法:首先基于均匀采样法精简点云数据;其次采用Kd-Tree算法查找最近点并基于距离阈值剔除错误匹配点;接着优化目标误差函数,计算点到切平面的距离;最后采用多角度的全局配准方法将两片重合程度最小的点云较好地配准在一起.通过对比实验,验证了本文的改进型ICP算法在运行时间和配准精度上都对传统的ICP算法做出了较大改进,取得了较好的配准效果. 相似文献