首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种基于不同语义单元度量的句子相似度计算方法.将句子按词块分割为对应的公共词块和非公共词块,利用外部语义资源进行同义词替换和语义消歧处理.分别用词、词块和字为语义单元度量句子相似度,以不同的权重调节各语义单元对句子相似度的贡献.实验结果表明,该方法综合考虑的因素更加全面,有较高的准确率.  相似文献   

2.
句子相似度计算是智能答疑等应用领域的关键技术之一,当前相似度计算方法大都对语义因素考虑不全,使得计算的结果准确度差,为此提出了一种混合型句子语义相似度计算方法。首先,通过语义资源得到词间语义相似度;其次,以词之间的相似度为基础,结合词的权重和句型的相似度得到了混合的句子间的语义相似度,避免了单一角度度量相似度带来的偏差;最后,通过对比实验验证了本文提出的混合型计算方法相对传统方法获得了更好的测试结果。  相似文献   

3.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

4.
为了解决现有句子相似度算法未考虑句子语义信息的问题,提出了一种基于词法、句法和语义的句子相似度计算方法.将句子相似度分为词法层、句法层、语义层3个层次.在词法层,通过构建句子的词汇相似度矩阵和数字序列相似度矩阵来计算词法相似度;在句法层,使用概念词汇转化成的RDF三元组相似度来计算句法相似度;在语义层,基于本体树状结构中最短路径表示的语义距离来计算语义相似度.然后,提出句子语义相似度计算模型,采集图书领域句子对作为测试集,构建图书领域本体作为知识源.实验结果表明,所提方法具有更高的准确率和召回率,其F-度量值达0.649 9,与余弦相似度算法、基于编辑距离的算法和基于TF-IDF的算法相比分别提高约12%、17%和16%.  相似文献   

5.
鲍春妹 《科技信息》2009,(26):120-120
语言学家称兼有句子和词汇特征的固定或半固定的语言结构为词块。词块能加速语言处理的速度,促进语言输出的流利程度。外贸英语教学也应将重点放在提高学生的词块生成能力上。本文将就词块理论在外贸英语教学中的优势及运用进行论述。  相似文献   

6.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

7.
利用选择类问题具有明确候选项的特点, 简化问题分类过程, 并针对长文本语义蕴含短文本语义的语言现象, 提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下, 采用维基百科中文语料库, 以全国各省市高考地理选择题作为实验数据, 通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明, 基于文本蕴含方法的准确率为36.93%, 比基于词嵌入的句子相似度方法提高2.44%, 比基于向量空间模型的句子相似度方法提高7.66%, 验证了该文本蕴含强度计算方法的有效性。  相似文献   

8.
一种改进的Lucene语义相似度检索算法   总被引:2,自引:0,他引:2  
 Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。  相似文献   

9.
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高.  相似文献   

10.
针对医疗信息系统中传统科室推理方法存在的计算效率低下、推荐效果欠佳与知识库难于维护等问题,提出了基于词向量句子相似度量的医疗科室推荐方法.该方法采用深度学习工具构建医疗知识库词向量模型,以词向量代替语义词典检索或词频统计来实现医疗问答对的相似度量,建立基于句子相似度量的医疗科室推荐框架.通过专业医疗在线问医平台真实问答数据的实验,结果表明,与传统科室推理方法相比较,该方法具有更高的推荐准确率与工程可行性.  相似文献   

11.
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.  相似文献   

12.
针对在文本分类和信息检索中,由于句子之间的同义、近义引起的信息冗余、计算复杂等问题,给出句子语义相似度计算模型.从词和词组语义相似出发,对句子进行语法分析,结果表明,句子的语法与语义是不可分割的,不能完全孤立语法去研究语义,要综合考虑.  相似文献   

13.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

14.
基于本体的英汉翻译记忆系统的研究   总被引:1,自引:0,他引:1  
在翻译记忆系统中,句子的语义理解是提高相似句子的匹配率的关键.提出了一种基于本体的英汉翻译记忆系统模型,以计算机文献领域的专业术语为范围构建了一个知识本体CSO,并引入本体的概念相似度进行模糊词对的相似度计算.实验证明,本体的语义信息能提高系统的匹配率.  相似文献   

15.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

16.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

17.
传统的TF-IDF算法主要依赖词频,往往忽略词语语义和一些具有重要意义的副词。针对这一问题,提出了一种基于语义分析的改进TF-IDF算法。该方法融入了词语语义来计算词频,改进了反义词语之间的相似度。实验结果表明,该方法在计算句子相似度中能根据语义方向对句中各词语词频进行统计,同时判断整个句子语义方向,与传统算法比较,语句相似度的准确性提高了5. 7%。  相似文献   

18.
提出一种定性地理信息检索方法, 用于地理信息的定性表达、语义匹配、推理和结果排序, 可以避免目前定量地理信息检索中语义信息丢失问题。采用命题逻辑方法综合表达查询和文档中的主题信息和地理语义信息, 将文档与查询的相关性度量分为主题相似度和地理相似度。前者通过命题关键词间加权本体距离获得。后者可进一步分为概念相似度和位置相似度, 分别基于地理本体和空间语义度量。由于信息的表达形式为命题和信息单元, 采用证据理论和模糊逻辑对上述子相关性度量进行统一建模。所提方法可以基于语义检索网页中的定性地理信息, 并对相关文档进行排序。这种检索和排序方法符合人类空间认知, 因此可以有效提高地理信息检索的效率。  相似文献   

19.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

20.
基于E-Chunk的问句实例分析系统   总被引:2,自引:0,他引:2  
分析中文问句的结构特点,研究处理问句需要解决的问题,提出一种基于语义块实例分析问句的新方法.采用语义块向量表示问句实例,比较输入问句和问句实例库中问句实例的相似性.在语义块向量结构相似的基础上计算问句的相似度.测试结果表明,该方法可行,准确率和召回率可分别达到82.05%和91.95%,该方法对问句分析系统的设计具有借鉴意义和继续深入研究的价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号