首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

2.
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。  相似文献   

3.
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。  相似文献   

4.
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值.  相似文献   

5.
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。  相似文献   

6.
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性.  相似文献   

7.
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.  相似文献   

8.
陈大亨 《科技信息》2011,(8):I0099-I0099
本文通过研究属性相似度以及组合权重的分析,提出区间属性相似度计算方法,基于相似度离差信息的客观赋权法将主观权重和客观权重加以组合,以组合权重来计算实例的全局相似度。  相似文献   

9.
文章基于属性权重完全未知的直觉模糊多属性决策问题,提出了一种属性权重向量组的决策方法。该方法认为决策对象应具有独立的属性权重,结合熵与离差最大化,确定所有选项的属性权重,构成一个权重向量组,并通过理想解与选项之间的关联系数进行排序。最后,文章通过算例说明了该方法的可行性。  相似文献   

10.
特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,目前主要采用离散化方法或特征分类能力的"相关性"评估进行特征选择.引入区间数相似度的概念,提出一种连续型特征选择方法.该方法以区间数相似度为基础,定义每个特征的属性相似度,以此作为特征选择的启发信息,对特征全集进行排序,选择特征子集,实现特征选择.相关实验表明了该方法的有效性.  相似文献   

11.
乔瀚  容芷君  许莹  但斌斌  赵慧 《科学技术与工程》2021,21(36):15497-15502
考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明该方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。  相似文献   

12.
基于案例推理的区间属性相似度研究   总被引:3,自引:0,他引:3  
分析了传统的实例检索策略的不足,提出了一种区间属性值之间相似度的计算方法.该方法是通过计算长度重叠率或面积重叠率来计算其相似程度.所提出的方法可以有效地处理实例检索中的不确定性,并能提高基于实例推理系统的性能。  相似文献   

13.
针对区间orthopair模糊环境下的群决策问题,提出一种基于区间orthopair模糊相似测度的多属性群决策方法.定义一种新的区间orthopair模糊相似测度,讨论其优良性质,并基于新的区间orthopair模糊相似测度构建优化模型,确定群决策中最优专家权重和最优属性权重,进而提出一种基于新的区间orthopair...  相似文献   

14.
针对数据规模的扩大,重复记录检测效率往往不能进一步提升的问题,提出一种粒子群优化BP神经网络的重复记录检测方法,充分利用了神经网络的非线性映射和粒子群算法的全局优化特性。将基于学习的思想和进化的思想应用到重复记录检测中,避开了传统方法计算属性权重的问题。理论分析和实验表明:该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。  相似文献   

15.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相...  相似文献   

16.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

17.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

18.
基于属性相似度的云分类器   总被引:4,自引:0,他引:4  
提出了属性相似度概念解决高维对象分类的权重问题,并结合云理论建立了基于属性相似度的云分类器.采用云理论建立训练集的各属性模型,表达各属性值隶属于其类别中心Ex的程度.分类模型由属性模型集成得到,属性权重根据属性相似度计算.各类别的同一属性间的相似度越大,此属性对分类的作用越小.基于粒子群优化方法对分类模型的中心位置Ex进行优化.将此分类器与普通云分类器应用于iris数据集的分类实验,该分类器的分类效果好于后者.  相似文献   

19.
为了解决不同数据源集成时的语义冲突,实现语义共享,首先必须要进行语义相关属性识别.针对不同类型的语义相关属性及其实例的表达形式,提出了一种更加具有通用性的语义相关属性识别方法--属性相似性计算模型,该模型能够计算数值型属性、字符型属性、标称型属性等三种不同类型属性之间的相似性,为判断不同属性是否相关提供了量化依据.结果表明,所提出的属性相似性计算方法不仅可以有效计算属性的相似性,而且允许相关属性的实例值存在表达冲突,拼写错误等情况,因此,该方法具有较好的容错性和通用性.  相似文献   

20.
首先分析了源代码相似度检测系统研究现状与存在问题。然后介绍了源代码相似度识别方法,给出了检测系统设计与实现,主要是系统框架设计、检测模块设计和检测结果输出等,最后对检测系统做了测试和效果分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号