首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
分析了几种常用的模式匹配算法,提出一种适合于中文的基于KMP的改进算法,即双向比较模式匹配算法.该算法以KMP算法为基础,引入特征数组以记录模式串尾字符在模式串中出现的位置信息,从而获得模式串在匹配过程中的最大移动距离和最少比较次数.实验结果表明,双向比较模式匹配算法可有效降低匹配次数.  相似文献   

2.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

3.
模式匹配是《数据结构》中关于字符串的一个基本运算,一般有两种方法,分别为"朴素算法"与"KMP算法"。KMP算法是一种高效的字符匹配算法,它的关键在于当字符匹配失败以后,利用next数组中的信息使指针不需要回退,这样就减少了匹配的次数,提高效率。KMP算法不容易理解,该文通过举例等方法分析KMP算法的匹配原理及过程。  相似文献   

4.
字符串的模式匹配算法——基于KMP算法的讨论   总被引:5,自引:0,他引:5  
重点对基本的串匹配算法和KMP算法进行了探讨。通过对这两种算法的比较分析提出了一个新算法,此算法具有比基本的串匹配算法更优越的时间复杂性,并且相对KMP算法而言更简洁易懂。  相似文献   

5.
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。  相似文献   

6.
利用选择类问题具有明确候选项的特点, 简化问题分类过程, 并针对长文本语义蕴含短文本语义的语言现象, 提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下, 采用维基百科中文语料库, 以全国各省市高考地理选择题作为实验数据, 通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明, 基于文本蕴含方法的准确率为36.93%, 比基于词嵌入的句子相似度方法提高2.44%, 比基于向量空间模型的句子相似度方法提高7.66%, 验证了该文本蕴含强度计算方法的有效性。  相似文献   

7.
分析了BM和KMP算法特点,阐述了字符串匹配算法在文本处理领域、信息检索、语义学、分子生物学等学科中应用的意义,对字符串中最有影响的KMP算法、BM算法、RK随机算法和SUANDAY算法以及由此而产生的一些改进算法进行研究,实现了实验分析及功能对比,并指明各算法的适用性.  相似文献   

8.
句子相似模型和最相似句子查找算法   总被引:25,自引:0,他引:25  
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小·  相似文献   

9.
如何从一个大规模日本语句子集合中高效地匹配出句法结构最相似的句子是一个极具挑战的科学问题。根据"平假名Token担负日本语句法标识"这个假说,设计了一种平假名Token-句子索引(HSI)数据结构,并实现了一种基于HSI的日本语句法匹配(HSIJSM)算法。在HSI的支持下,通过快速计算两个日本语句子的形式相似性,HSIJSM算法能够得到它们之间的句法相似性。实验结果表明HSIJSM算法是传统算法速度的100倍,每秒在线匹配25个句子的日本语句法,达到23%以上的准确率。  相似文献   

10.
一种改进的KMP高效模式匹配算法   总被引:9,自引:0,他引:9  
针对KMP算法存在着主串与模式串中多个相同字符重复比较的缺陷,在KMP算法的基础上,给出了一种新的模式匹配算法,该算法不像KMP算法那样向左滑动模式串的指针,而是每次比较字符不匹配时,根据模式串当前字符的特征值k,使主串的指针向前跳跃k个值,且使模式串的指针置于起始位置,开始新一轮的匹配,加快了主串的匹配速度.理论分析和试验证明,该算法需要的比较次数比KMP算法减少将近一半.  相似文献   

11.
基于E-Chunk的问句实例分析系统   总被引:2,自引:0,他引:2  
分析中文问句的结构特点,研究处理问句需要解决的问题,提出一种基于语义块实例分析问句的新方法.采用语义块向量表示问句实例,比较输入问句和问句实例库中问句实例的相似性.在语义块向量结构相似的基础上计算问句的相似度.测试结果表明,该方法可行,准确率和召回率可分别达到82.05%和91.95%,该方法对问句分析系统的设计具有借鉴意义和继续深入研究的价值.  相似文献   

12.
提出在基于实例的英汉机译中,一种基于相似性评估的近似实例求解策略·首先,对知识源进行预处理,包括树库、片段库及片段组合库的构建;其次,对输入句子进行预处理,包括句法分析树的建立,合法片段的抽取及片段组合形式的转换;最后,测量片段至句子的相似性,依据相似性阀值获取输入句子的所有近似实例·实验结果表明,各项测试指标都比较令人满意  相似文献   

13.
结构化自动问答系统采用传统方法缺少对词汇、词序和结构的划分,导致语句相似度较低,为了解决该问题,提出了基于Web语义的混合问句相似度计算方法。根据结构化自动问答系统结构,设计系统语句分析模型,通过正向匹配方法,对模型专业词库中的用户输入自然语句进行分词处理,并对字符串之间的关系展开分析。采用非恒定相似度系数来描述2个字符串的相似情况,并由此分析词形、词序和结构相似度,完成不同语句相似度的计算。通过实验对比可知,文章提出的基于Web语义的混合问句相似度计算方法最高计算精准度可达到96%,可提升自动问答系统的整体性能。  相似文献   

14.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

15.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

16.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

17.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

18.
提出了一种基于不同语义单元度量的句子相似度计算方法.将句子按词块分割为对应的公共词块和非公共词块,利用外部语义资源进行同义词替换和语义消歧处理.分别用词、词块和字为语义单元度量句子相似度,以不同的权重调节各语义单元对句子相似度的贡献.实验结果表明,该方法综合考虑的因素更加全面,有较高的准确率.  相似文献   

19.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号