首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

2.
针对孪生网络在小样本数据集上的应用和优化问题,提出一种基于双重相似度计算和孪生网络的小样本实例分割模型。首先对传统孪生网络进行改进,将孪生网络与残差网络相结合,构建作为本模型骨干网络的孪生残差网络;然后在相似度计算阶段构建了具有两个子网络的双重相似度计算网络,分别用于计算场景图像与参考图像的空域相似度和频域相似度,并进行相似度特征融合;最后通过实例分割网络获得分割结果。此外,还引入Focal Loss损失函数来解决模型训练过程中正、负样本以及难、易样本的不均衡问题。在COCO数据集上的实验结果表明,本文方法的小样本实例分割性能要优于对比算法。  相似文献   

3.
协同过滤技术作为目前最常见的个性化推荐技术之一,被广泛认可和应用.作为基于内容的算法执行方式,协同过滤在准确性上具有相当的优势.该算法的核心问题是相似度的计算.本论文介绍了传统协同过滤算法,并对原有的相似度公式进行了优化,使得相似度计算更具有准确性.实验表明,文中提出的优化方法在推荐精度上有显著提高,降低了平均绝对误差(Mean Absolute Error,MAE).  相似文献   

4.
目前针对古筝的音高识别的研究较少,识别算法表现欠佳,主要原因在于古筝音高频谱频率分布复杂且现有高质量数据集较少,不易获取有效音高特征。本文考虑到古筝音高频谱存在基频丢失、谐波衰弱、倍频音混淆(八度错误)等问题,提出了一种基于频率比对的音高相似度特征计算方法。该方法首先通过预处理对原始音频数据进行时频变换,然后提出用综合频率相似度、能量相似度和频率置信度这3种相似度特征来区分不同的音高,3组相似度矩阵表明该方法在不同音高上有较高的区分度。对630条古筝音频数据的实验结果表明,利用本文所提出的3种相似度特征计算方法的音高分类模型的准确性F1值高达97%,优于使用传统频谱特征的方法的80%。  相似文献   

5.
针对传统协同过滤方法存在数据稀疏问题,该文提出了一种面向稀疏数据的比率相似度计算方法,该方法在相似度计算过程中仅基于用户全部的显式评分数据,并且不依赖于共同评分项。用户的未评分项目通过相似度计算结果和最近邻的评分数据进行预测,并将预测评分较高的项目推荐给用户,实现个性化推荐。实验在两个公开的数据集上进行,结果表明,在数据稀疏的情况,该方法下仍然能够实现较高的推荐精度。  相似文献   

6.
在信息检索领域,基于不精确的语义信息进行查询,需要用户多次进行筛选,降低了查询效率,因此,语义相似度计算的精确性至关重要.目前,人们主要利用概念词的距离、内容、属性等信息进行语义相似度计算,其中综合距离,信息内容和概念词属性等因素的混合式语义相似度计算方法是比较热门的方法,但该方法进行语义相似度计算时,权值的确定是根据专家的经验,人为的进行确定,具有一定的主观性,影响了语义相似度计算的准确性和客观性.因此,本文提出了一种新的混合式语义相似度计算方法,采用模糊优化的思想确定混合式语义相似度计算方法中的权值,避免了主观性,使语义相似度的计算更准确,查询结果更符合人们的需求.  相似文献   

7.
在行人重识别模型中引入邻域数据关系,提出了一种基于图像邻域相似度的重排序方法。首先扩充图像的邻域数据,然后计算图像对不同邻域数据的相似度权重,利用该权重得到代表邻域相似度的分布距离,再用分布距离与原始距离计算得出最终距离作为重排序评判标准。使用CCL,Transreid, Torchreid等行人重识别模型在Market-1501,DukeMTMC-reID数据集上进行实验,结果表明本文方法对基准模型的精度提升均超过该领域的主流算法,证实了本文方法的有效性和泛化性。该重排序方法不需要任何人工交互和额外数据,适用于大规模数据集,可以有效应用于图像检索、目标跟踪等需要考虑相似度关系的任务中。  相似文献   

8.
相似度度量是基于邻居的协同过滤推荐算法中的关键步骤,对推荐结果的优劣有至关重要的影响。基于Bhattacharyya系数的相似度度量方法虽然解决了依赖于共同评分的问题,但忽略了评分值绝对数量对结果的影响。同时,当项目间相同评分值数量占比小时,基于Bhattacharyya系数的相似度度量方法存在计算准确性差的缺点。为此,引入Laplace校准法和权重赋值法对该相似度度量方法进行改进。改进后的方法不仅克服了原方法的不足,而且还充分利用所有评分信息,提升计算的准确性。数据实验结果表明,提出的相似度度量方法性能优于改进前的算法及传统的度量方法。  相似文献   

9.
概念相似度研究,是知识表示以及信息检索领域中的一个重要内容.通过对传统相似度计算方法进行分析,提出了一种改进的概念相似度计算模型.该计算模型在计算相似度时不仅改进了语义距离、层次差、语义重合度的计算方法,还考虑了节点密度和有向边类型对相似度计算的影响.实验结果表明,该方法充分利用了本体层次树的结构特点来计算概念之间的相似度,全面地量化了本体概念节点间的语义相似度,提高了概念间相似度计算的准确性.  相似文献   

10.
针对现有本体映射过程中相似度计算方法的精度及效率的不足,提出一种新的综合概念相似度算法模型,该算法分别对本体概念的名称、属性和实例相似度进行计算,过程中融合了信息增益和聚类集方法,并最终对三种相似度量结果加权综合。实验表明,算法得出的概念相似度计算结果在合理性和准确率上都有所提高。  相似文献   

11.
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.  相似文献   

12.
基于相似度的复杂数据对象比较   总被引:10,自引:0,他引:10  
针对包含多种类型属性的复杂数据对象在比较时的难题,给出了它们之间的一种比较方法.该方法引入了相似度的概念,给出了相应的复杂对象相似度的计算方法.该方法使复杂对象不同属性的类型和取值范围差异对比较结果的影响减小,使得比较简单化,便于常规排序算法的应用。  相似文献   

13.
将基于包含度的数据挖掘方法引入到高职学生VC成绩的分析之中,得出了有意义的约简和针对性的规则,通过实验研究,表明该方法得到的实用规则,在以后提高教学绩效方面具有较大实用价值.  相似文献   

14.
现代战争需要对多源异构的装备数据进行高效集成。针对不同来源数据中装备名称不一致的问题,设计了装备数据的聚合模型和聚合流程,在综合分析现有算法的基础上,结合装备名称特点为该模型提供了一种新的相似度匹配算法,算法将Jaro-Winkler和最长公共子序列相结合,以提高匹配的精度。最后通过实验进行了验证,结果表明该算法与传统相似度算法相比具有较高的适配性和鲁棒性,可以为装备数据聚合工作提供有效支撑。  相似文献   

15.
针对时序数据进行相似性挖掘方法的研究,提出一种寻找已知序列的所有相似性子序列的方法,用该方法对数据模拟,结果表明该算法提高了查询性能。  相似文献   

16.
水文时间序列的相似性搜索研究   总被引:1,自引:0,他引:1  
将时间序列相似性搜索的数据挖掘方法应用于水文时间序列数据中,挖掘相似的水文过程.在分析欧氏距离和动态时间扭曲距离两种相似性距离度量方法特点的基础上,采用对时间轴的伸缩和弯曲具有较好适应性的动态时间扭曲距离法对塔里木河流域源流区出山口水文站沙里桂兰克站1961—2000年共220场洪水流量过程进行相似性搜索,基于相似性距离度量矩阵,挖掘出相似的洪水流量过程.结果表明,沙里桂兰克站洪水过程虽形态多样,但也表现出一定的相似性,基于动态时间扭曲法的相似性搜索能有效挖掘出相似的水文过程.  相似文献   

17.
Web数据挖掘是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域,文章利用了一种时间相似系数(利用夹角余弦)的计算方法,结合雅可比系数和CM系数,通过综合考虑上述三个系数,把它作为Web访问者行为的相似度度量准则,同时,又采用层次聚类算法,最后实验结果很好。  相似文献   

18.
提出了一种基于资源相似性的Web访问序列模式的相似度量方法,并且考虑了用户访问资源的时间因素,经过检验,证明其能够有效真实地反映实际情况。  相似文献   

19.
王福海 《科技信息》2011,(1):I0059-I0061
针对传统iDistance索引方法的缺陷和不足,提出了近似位置编码索引方法PLC—iDistance(ProximityLocationCode—iDistance),并在结构化P2P网络中实现了高维数据检索。在改进方法中,有效地缩小了需要搜索的范围,提高了检索性能;.实验表明,相比传统的iDistance索引方法.PLC—iDistance索引方法在时间性能上有较大的提高。  相似文献   

20.
在对我国证券市场交易数据的研究基础上,提出了一种新的面向金融时间序列的相似度量模型。此模型的数学定义清晰,易于计算机实现,能够有效完成形态搜索的自动化。给出了模型的形式化定义和模型的性质,并在实际股票交易数据上进行了相似性搜索实验,实验结果验证了模型的识别能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号