首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。  相似文献   

2.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

3.
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值.  相似文献   

4.
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相...  相似文献   

5.
随着中文网站数量的日益庞大,中文的Deep Web信息集成已成为网络信息领域的焦点。属性相似度计算是Deep Web信息集成中模式匹配的关键一步。该文根据中文查询接口中的属性词汇常常表现为1-3个词语构成的短语的特点,提出一种更有效的基于《知网》的属性相似度计算的方法,使属性匹配的准确率得到大幅度提高。  相似文献   

6.
飞行数据是一种典型的时间序列数据,其存在随机噪声以及各种复杂变形,导致了相似子序列查询困难。为此,提出一种基于DTW病态匹配的飞行数据相似子序列查询方法。首先,利用已知的查询序列样本集构建上、下边界曲线,同时给出了相应的下界距离,并证明了其正确性。以此建立下界算法,用于筛选相似度高的子序列。其次,利用DTW距离搜索路径病态匹配来对筛选后的子序列无效序列段进行识别并去除,解决了子序列有效匹配长度难以确定的问题。仿真实验结果表明:该方法可以较为精确地查询出相似子序列,其起止时间偏差可以控制在3 s以下,满足飞机飞行动作查询的实际需求。  相似文献   

7.
为提高信息检索中检索结果的查准率,提出了基于句法分析以及带权路径长度的句子相似度计算方法。该方法首先对用户问句进行了分词、词性标注以及句法分析处理,并根据处理后的结果对该句进行了关键词提取、加权和同义词近义词扩展处理。然后提出了基于带权路径长度计算的方法,并用该方法计算用户问句与检索信息标题句之间的相似度,即问句的带权路径长度与标题句的带权路径长度的相对比值,以此对检索结果进行二次排序,提高检索结果查准率。实验表明,该句子相似度方法能有效地提高信息检索中检索结果的查准率。  相似文献   

8.
应用经典粗糙集理论处理连续值属性决策表问题时,对连续值属性进行离散化会造成信息损失.本文在分析已有相似度不足的基础上提出一种改进的相似度,建立基于改进相似度的扩展粗糙集模型,并提出一种基于重要度的约简算法.  相似文献   

9.
属性相似度的准确性是影响实体分辨准确程度的重要因素之一.为提高属性相似度的准确性,分析了属性相似度与函数依赖的关系,给出了属性相似度调整原则,提出了依据函数依赖进行相似度划分、相似度传递调整和计算相似度调整代价的方法,提出了通过属性相似度调整提高属性相似度准确性的属性相似度传递调整算法.实验结果表明,该算法能够更好地区分匹配记录对和不匹配记录对,获得更高的查全率、查准率和F1值.  相似文献   

10.
一种基于相似系数的权重确定方法   总被引:1,自引:0,他引:1  
分析常用的主观权重确定方法,提出一种基于相似系数的权重确定方法,给出其数学解释、建模过程和计算步骤,指出在实际评价、决策中可以利用描述指标向量相似程度的"相似系数法"来求出相似系数,进而确定相似权,即为指标权重。最后,结合叉车维修决策中的实例验证其可行性,并与利用层次分析法确定权重在计算过程复杂性和计算结果准确性方面进行比较,证明其计算的准确性和简易性。  相似文献   

11.
谈中文图书编目查重   总被引:1,自引:0,他引:1  
阐述了中文图书编目查重的意义和查重途径,指出了查重中常见的问题,并提出了对策。  相似文献   

12.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

13.
框架的对偶框架与框架本身一样在表示信号时起着重要的作用.本文首先基于线性算子理论提出广义框架的近似对偶框架概念,然后构造广义框架的一系列近似对偶框架.最后,建立广义框架的近似对偶框架的扰动结果.  相似文献   

14.
浅析图书采访自动查重和验收系统   总被引:1,自引:0,他引:1  
分析了图书采访查重及图书验收的定义及意义,介绍了浙江万里学院图书馆设计开发的一套新型的图书采访查重、验收系统。  相似文献   

15.
对Simhash算法进行改进,用CityHash函数生成数据指纹特征值,以此对数据进行判重.在广州市某区政府的信访业务真实数据下进行了实验,实验结果相对其他算法具有较高的召回率和准确率.并提出了一种索引归类方法来提高全部数据一次性相似检测的速度,在MongoDB数据库存储指纹值的前提下,为增量数据的高效判重处理提供了保障.通过对数据的整个判重过程的改进,达到了高效、实用的价值,为科学办案、重复办案提供了参考依据.  相似文献   

16.
散列函数在查询算法中起着重要作用,基于此的查询算法在理论上可达到常数级时间复杂度。提出了双次线性映射散列函数,和除留余数法、平方取中法、折叠法等常用的散列函数相比,该函数具有单调性,并在一定程度上消除了堆积现象;和线性散列函数相比,该函数具有受数据分布特性影响小,易推广的特点。通过该散列函数,一个待查元素可以在有序序列中被定位到离真实位置偏差很小的范围之内。基于此提出了一种高效的查询算法。  相似文献   

17.
1996~1998 年期间,作者在研究乌梁素海湿地鸟类物种多样性过程中,所记录到的鸟类中有6 种为该湿地的新记录.其中红喉潜鸟为内蒙古新记录,彩鹬为内蒙古繁殖的最西界  相似文献   

18.
给出高效率的模式匹配算法Boyer-moore算法的原理及其具体实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号