首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

2.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

3.
为了解决现有句子相似度算法未考虑句子语义信息的问题,提出了一种基于词法、句法和语义的句子相似度计算方法.将句子相似度分为词法层、句法层、语义层3个层次.在词法层,通过构建句子的词汇相似度矩阵和数字序列相似度矩阵来计算词法相似度;在句法层,使用概念词汇转化成的RDF三元组相似度来计算句法相似度;在语义层,基于本体树状结构中最短路径表示的语义距离来计算语义相似度.然后,提出句子语义相似度计算模型,采集图书领域句子对作为测试集,构建图书领域本体作为知识源.实验结果表明,所提方法具有更高的准确率和召回率,其F-度量值达0.649 9,与余弦相似度算法、基于编辑距离的算法和基于TF-IDF的算法相比分别提高约12%、17%和16%.  相似文献   

4.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

5.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN (dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP (microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK (sentences involving compositional knowledge)数据集上模型的皮尔森相关系数能达到87.5,在MSRvid (microsoft video paraphrase corpus)数据集上模型的皮尔森相关系数能达到92.2。  相似文献   

6.
基于句子相似度的自动文摘评价方法   总被引:1,自引:0,他引:1  
评价是自动文摘研究领域中非常重要的一个环节。针对目前自动文摘内部评价方法存在主观性强,无法体现深层语义的缺陷,提出了一种基于句子相似度的自动文摘评价方法。该方法是利用机器摘要和理想文摘中的句子相似度衡量文摘系统的性能,而不是单纯地利用词频或语句包含关系。实验表明,基于句子相似度的评价方法是一种更接近自然模型的评价方法。  相似文献   

7.
句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).  相似文献   

8.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

9.
通过对句子语义表示的深入分析,提出汉语句义的三维表示模型,并在此基础上提出一种基于句义三维表示模型的句子相似度计算方法.该方法从义面、义原、义境三个侧面来综合描述句子的语义,并通过迭代求解各方的权重,从而使计算结果达到最优.与传统的方法相比,更加全面、准确地衡量句子之间的相似度,取得了较好的实验结果.  相似文献   

10.
FAQ问答系统句子相似度计算   总被引:3,自引:0,他引:3  
句子相似度计算是FAQ问答系统的核心问题,提出一种改进的基于多重信息的方法,即结合关键词信息、句子结构信息和语义信息的句子相似度计算方法,并用实例验证了方法的可行性.  相似文献   

11.
单部完全句与带有一个主要成份的双部不完全句的区别在于主要成份的表达形式不同,人称形式或行为主体的表达方法也各异。  相似文献   

12.
单句和分句的区别是《马氏文通》出版以来语法学界一直争论不休的问题。1957年曾经在刊物上展开过讨论,最后也没有得出一致的意见。之所以出现这种结果,主要原因是大家所提的标准大笼统,所举例证太少,不足以反映语言实际的概貌。单复句的区分,应在分析大量语言实例的基础上,提出便于操作的标准:以结构关系为主,主要看有几套句子成分;此外还要看语音停顿、关联词语和意义关系。  相似文献   

13.
牛菊年 《科技信息》2013,(8):183-183
Chinese is a topic-prominent language while English is a subject-prominent one.This paper,based on the typological differences between the two languages,analyzes their basic structure.Also,it explores some skills on selecting a subject in transferring TC structure into SP structure.  相似文献   

14.
<正> 句群是不是语法单位,目前语法学界尚有不同看法。句群强调的是用语前后连贯的问题,从语用角度看,可归入修辞的范畴。但掌握句群知识对理解语言、运用语言有帮助,亦可归入语法的范畴。不管将其归入修辞的范畴还是归入语法的范畴,句群作为一种普遍存在的语言现象,都有必要清楚地认识它,本文试对什么是句群、句群与段落的关系、句群与多重复句的区别三个问题谈点看法。  相似文献   

15.
存现句与一般主谓句的主要区别在于语用价值上,二者的信息焦点不同;存现句的选择有时是篇章衔接的需要,有时是心理视点的需要;存现句在不同语体的分布强弱序列是小说、戏剧、散文、诗歌。  相似文献   

16.
句子的有效性是英语修辞学的基本问题,是优秀英语语篇最重要的特点之一.本文对英语句子有效性进行了比较全面的考察,探讨了在英语书面表达中增强句子的修辞性,保证句子表达效果的各种方法.  相似文献   

17.
句子规划器的设计与实现   总被引:5,自引:1,他引:4  
介绍生成多语种天气预报文本系统中句子规划器的设计与实现.句子规划主要由两部分组成:句子优化和语言资源映射.前者按照一定的优化规则在句子之间消除冗余成分;后者根据具体语言特点对句子进行结构化处理,确定文本结构树并为树中各节点添加语言资源信息,以供表层生成处理时使用.  相似文献   

18.
Automatic partition of Chinese sentence group is very important to the statistical machine translation system based on discourse. This paper presents an approach to this issue: first, each sentence in a discourse is expressed as a feature vector; second, a special hierarchical clustering algorithm is applied to present a discourse as a sentence group tree. In this paper, local reoccurrence measure is proposed to the selection of key phrases and the evaluation of the weight of key phrases. Experimental results show our approach promising.  相似文献   

19.
句子相似度计算是自然语言处理领域中比较重要的研究课题,有着非常广泛的应用,直接决定某些领域的发展。本文介绍了中文句子相似度计算存在的特点和难点,分析了当前常用的中文句子相似度计算方法的优点以及存在的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号