首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在基于特征词遍历匹配的文本分类算法中,字符串匹配算法的选取及相似度阈值控制对文本分类结果起着决定性的作用。针对三种常用的字符串匹配算法做了分析及对比实验,选取了最适合政策文本分类的一种字符串匹配算法。并通过研究政策文本具有的特征提出了一种基于特征词加权的相似度阈值计算方法,经实验证明相似度阈值符合分类要求。  相似文献   

2.
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。  相似文献   

3.
围绕双语平行语料质量评价问题,提出基于集成机器翻译的无监督质量评价思路,从翻译方向和翻译系统两个视角分别设计实现了单引擎和多引擎无监督评价框架和算法。实验结果表明单引擎无监督评价算法能够集成同一个机器翻译系统不同翻译方向的差异,多引擎无监督评价算法能够集成不同机器翻译系统之间的差异,采用最基本的莱文斯坦字符串形态相似度计算方法和线性加权集成方法能够实现高效工业级语料质量评价。  相似文献   

4.
目的通过混合多种语义相似度度量方法来提高本体匹配的质量。方法构建一种新的语义相似度度量方法的组合框架,综合考虑组合过程中存在的2种情况来提高混合语义相似度度量方法的有效性。结果通过同国际本体匹配结果评价竞赛(Ontology Alignment Evaluation Initiative, OAEI)参与者的比较结果表明本文所提出的方法是有效的。结论本文提出的混合语义相似度度量方法能够有效组合基于知识库和字符串的语义相似度度量方法以识别异质的本体概念,从而提高本体匹配结果的质量。  相似文献   

5.
双语影视知识图谱的构建研究   总被引:1,自引:0,他引:1  
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO), 将各个影视数据源对齐到BMO, 以保持异构数据源的语义描述一致性。在知识链接方面, 在充分挖掘和利用领域特征的基础上, 采用基于Word2Vec 和TFIDF 两种向量模型的实体相似度计算方法, 使相似度特征增加一倍, 大大提升了模型的链接效果。在实体匹配方面, 提出基于相似度传播算法的实体匹配算法, 并利用影视数据源之间的内在联系, 克服了跨语言实体之间计算相似度的语言障碍。实验结果表明, 当阈值取到0.75 以上时, 实体匹配的准确率都能达到90% 左右。此外, 还建立了影视知识图谱共享平台, 并提供开放性的数据访问和查询接口。  相似文献   

6.
实体解析是指识别同一实体的不同描述形式的过程, 旨在保障数据质量, 是数据清理、数据集成及数据挖掘中的关键技术. 随着电子商务的不断发展和成熟, 商品的多样性和消费者灵活的购买方式, 使得对网络商品的精确识别和匹配成为大数据时代亟待解决的问题. 与传统实体解析主要针对结构化数据不同, 网络数据具有非结构化、异构和海量的特性, 为此设计了综合相似度算法(synthesized similarity method, SSM)来计算网络商品数据间的相似度, 同时引入凝聚的层次聚类框架, 以匹配来自不同数据源的异构商品. 此外, 为了解决大数据环境下对执行效率的要求, 从字符串相似度缓存、约束知识库和分块策略三个方面对SSM进行优化, 基于真实数据集的实验结果验证了SSM的执行效率和有效性.  相似文献   

7.
对程序代码抄袭检测中多种字符串匹配算法的实现原理进行了描述,给出匹配算法计算相似度的公式以及相对应的时间复杂度。由于字符串匹配算法在程序代码抄袭检测中应用较为广泛,对其中的B-F(Brute-Force)朴素算法、LCS(Longest Common Subsequence)最长公共字串算法、GST(Greedy String Tiling)贪心字符串匹配算法等经典算法的总结比较是一件有意义的研究工作。  相似文献   

8.
谷春英  张顺利 《科学技术与工程》2013,(10):2871-2874,2879
恶意程序代码的相似度估计是恶意程序代码分析和检测的重要研究内容。现有的方法主要是对恶意程序代码进行属性计算或结构度量,但由于恶意程序代码结构的灵活性和恶意程序代码的伪装、恶意程序代码的相似度较难度量。提出了改进指纹和LSC加权的恶意程序代码相似度估计算法。该算法首先对恶意程序代码进行函数作用域划分和标准化预处理,然后对其进行字串序列化,利用改进的指纹相似度来对恶意程序代码的相似度进行度量;同时结合最大公共字串匹配算法进行结构度量,并对其相似度计算结果进行加权,对恶意程序代码结构的相似度进行综合估计。实验以C语言结构的程序代码为例,利用折半查找算法生成恶意程序代码测试数据集进行算法有效性验证。仿真证明该算法具有较好的恶意程序代码相似度估算精度。  相似文献   

9.
为了实现委托外部检测单位进行的化验任务中古生物代码的导入,设计了基于编辑距离算法的古生物代码匹配方法。该方法在匹配指定古生物代码时,首先计算该古生物代码与本地古生物代码库中各个代码的字符串相似度,然后按照相似度从高到低推荐给用户进行选择。为了提高匹配的效率,在匹配过程中,若找到编辑距离为0的本地代码后即为最佳匹配结果,结束整个匹配过程;此外,对实验人员手工选择的匹配结果进行缓存,以供下次快速匹配。实例分析结果表明,基于编辑距离算法的匹配方法能够精确得到古生物代码之间的相似度,达到了预期的效果。  相似文献   

10.
论文抄袭一直是学术领域重点关注和研究的问题。为了有效的检测出抄袭的情况,本文结合模式匹配算法研究设计了论文抄袭检测方法。提出采用模式匹配中的基于字符串匹配的相似度算法,通过添加、删除、替换等操作还原文档,并计算文档间的相似距离,根据相似距离获得文档相似度,从而判断文档的抄袭比例。反抄袭算法的研究实现为遏制进一步恶化的抄袭现象,净化学术风气提供了有效的监控技术。  相似文献   

11.
在软件开发过程中绝大多数克隆代码集中在函数内部,为了更加快速有效地检测出克隆代码,提出了一种基于函数内部特征矩阵的代码克隆检测算法。该算法通过提取函数内部特征,从而达到将具体代码的比较转化为对特征矩阵进行相似度计算。实验结果表明,该算法可以检测出所有克隆函数,并与基于字符串代码克隆检测算法和基于串匹配的程序代码相似性识别方法相比,该算法在运行时间及精度上均优于基于字符串代码克隆检测算法和基于串匹配的程序代码相似性识别方法。其次,通过使用N-grams算法对函数名进行相似度检测,使得该算法在运行效率上得到了显著提升。  相似文献   

12.
互联网、物联网和云计算技术的不断融合,使得各行各业信息化程度越来越高,但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征,导致了数据可用性较差,利用这些数据难以挖掘出准确而完整的信息.为了更有效地利用数据,实体匹配、融合和消歧变得尤为重要.主要对异构网络中实体匹配算法进行了综述,对实体相似度度量和数据预处理技术进行了梳理;特别针对海量数据,概述了可扩展实体匹配方法的研究进展,综述了运用监督学习和非监督学习两类技术的实体匹配算法.  相似文献   

13.
针对用户跨线上行为复杂多样难以融合监控的问题,提出了基于用户名相似度传播模型的线上用户身份属性关联方法。结合中文社交网络中用户名的特征,将用户名中的中英文字符进行分离,并采用贪婪算法分别求取不同用户名之间的中英文字符串的最大公共子串,以此实现含中英文字符的用户名相似度的计算;结合用户线上的好友结构网络,仅利用一阶邻居的用户名相似度求解用户对的匹配度,由此不但实现了用户名相似度沿网络结构的快速传播,也大幅度地降低了匹配算法的计算复杂度。结合所收集的新浪微博和人人网中用户身份属性数据的实验结果表明:新提出的字符串匹配算法将用户名匹配准确率提升了近30%,传播模型也大幅度地减少了用户名匹配的计算量,分析结果不但可以实现用户跨线上应用行为的关联融合,也对网络舆论控制和行为监管具有重要的参考价值。  相似文献   

14.
针对计算机各语言间的无岐义映射问题, 提出一种从自然语言向SPARQL语言映射过程中的歧义消解算法. 该算法基于自然语言的特征, 拟合知识丰富程度和文本相似度消解实体映射过程中的歧义性, 拟合语义权重度和文本相似度消解关系映射过程中的歧义性. 实验结果表明, 该算法效果较好.  相似文献   

15.
首先介绍了现有典型切变检测算法,然后提出一种改进的镜头切变检测算法,在字符串匹配算法的基础上用直方图法来进行二次检测.实验显示,这种方法解决了单独用字符串匹配算法造成的误检问题,取得了较好的镜头切变检测效果.  相似文献   

16.
为充分利用汉字结构、轮廓、笔画、书写顺序等特征识别相似汉字,提出基于特征向量和笔顺编码的字形相似算法,用以解决形近字检索中准确度不高的问题。算法采用图像处理方法及五笔编码规则将汉字转化为特征向量形式和笔顺编码字符串,引入二值化差值算法和改进后的Jaro-Winkler Distance算法分别对其进行相似度计算,2个相似度分别从不同方面反映汉字的相似程度,吸取2种方法的优势对其进行融合,得到最终字形相似度。实验结果表明,该算法在字形检索中较3元组递归算法准确率提高27.8%,较模板匹配算法、结构方法、神经网络算法执行效率平均提高约66.7%,该算法不仅可以有效解决形近字检索中的准确性问题,同时效率也得以优化。  相似文献   

17.
针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率.  相似文献   

18.
Vague集之间相似度量的分析与研究   总被引:2,自引:0,他引:2  
分析了现有的5种Vague集(值)之间相似度量的方法,指出这些度量方法不能准确刻画Vague集(值)之间相似度量的本质,导致了错误的推论.通过确定2个Vague值之间精确相似度存在的最小区间,得到一种新的度量方法--最小区间法.该方法不仅具有较好的特征和度量效果,而且为匹配算法的改进提供了数学基础.  相似文献   

19.
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。  相似文献   

20.
由于生物医学本体拥有规模庞大的概念和复杂概念间关系,已有本体匹配技术难以高效确定生物医学本体匹配结果。为解决这一问题,构建了生物医学本体匹配问题优化模型,提出基于进化算法的生物医学本体匹配技术来确定最优匹配结果。在求解生物医学本体匹配问题时,采用一种新的生物医学本体概念相似度度量来确保匹配结果质量,并通过基于推理的概念对剪枝技术缩小算法的搜索空间,提高算法效率。实验结果表明,基于进化算法的生物医学本体匹配技术能有效匹配生物医学本体。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号