首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
一种基于Tree-LSTM的句子相似度计算方法   总被引:2,自引:0,他引:2  
在浅层句法树和依存关系树的基础上, 提出两种结构化特征: 基于短语的浅层句法树NPST和基于短语的依存树NPDT, 并将它们与Tree-LSTM模型相结合, 进行句子相似度计算。实验表明, 使用结构化特征和Tree-LSTM会带来性能的提升。  相似文献   

2.
针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的.  相似文献   

3.
作者识别是通过分析未知文本的写作风格推断作者归属的交叉学科。现有的研究多基于字符和词汇特征,而句法关联信息在研究中鲜有涉及。该文提出了基于句法树节点嵌入的作者识别方法,将句法树的节点表示成其所有依存弧对应的嵌入之和,把依存关系信息引入深度学习模型中。然后构建句法注意力网络,并通过该网络得到句法感知向量。该向量同时融合了依存关系、词性以及单词等信息。接着通过句子注意力网络得到句子的表示,最后通过分类器进行分类。在3个英文数据集的实验中,该文方法的性能位列第2或3位。更重要的是,依存句法组合的引入为模型的解释提供了更多的方向。  相似文献   

4.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

5.
一种基于汉语隐喻依存句法树的嵌入式树匹配算法   总被引:1,自引:0,他引:1  
提出了一种基于汉语隐喻依存句法树的嵌入式树匹配算法,旨在发掘给定语句中所有可能存在隐喻关系的句法依存结构模式,即从隐喻依存模式库中寻找出所有能够嵌入目标依存句法树的模式,同时记录下对应的节点匹配结果.模式库由预先存入的从大规模隐喻句中抽象出来的标准化依存句法树组成,算法采用自上而下和自下而上回溯修正相结合的办法,实现了依存模式的精确匹配.测试结果表明,本算法能够准确无误的找出依存模式库中能够嵌入目标树的所有规则树,实现精确匹配的同时准确记录了每个节点的对应匹配结果,算法保证了较高的运行效率.  相似文献   

6.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

7.
为了从不同的文本获取干净、有效的信息,首先要做的是删除重复的内容,而问题的核心是字段的匹配。目前大部分的字段匹配算法主要针对英文,对于中文的字段匹配算法还存在许多缺陷。为解决中文文本匹配准确度较低的问题,通过分析汉语语法的特点以及编辑距离算法中针对中文文本相似度计算时的不足,提出了一种基于中文文本的编辑距离算法的改进方法。该算法采用中文分词和基于短句的方法,解决了编辑距离算法在中文文本相似度计算时不能处理字段颠倒的情况。通过对实验结果的分析,改进后的算法明显提高了中文文本相似度计算时的匹配准确率。  相似文献   

8.
蛋白质相互作用关系对理解生物过程具有非常重要的意义,为了解决同位语依存关系带来的噪音干扰,提出了一个改进的基于树核的PPI提取方法,通过定义一些相关的处理规则来有效优化两个蛋白质之间的最短依存路径,在此基础上,用有效优化路径来指导成分句法树的裁剪,使得用于PPI提取的成分树更加精确和简洁.实验结果表明:用有效优化路径指导的成分句法树在五个常用的语料库上都取得了较好的效果.  相似文献   

9.
针对传统的语义相似度计算方法计算量过大、 计算过程较复杂等问题, 提出了一种基于阶段递进的综合本体相似度计算方法。该方法把计算相似度的过程分为4个阶段, 每个阶段根据实际情况设定一个阈值, 如果此阶段计算的相似度大于阈值, 则计算下一阶段的相似度; 如果小于阈值, 则认为该对概念间不相似, 不必再计算以下各阶段的相似度, 可大大减少相似度的计算量, 使计算过程清晰可控。通过实验数据可知, 该算法与Glue算法相比, 其查全率、 查准率分别提高4.78%和3.05%, 而计算效率提高50%以上。  相似文献   

10.
尝试将依存树转化为短语结构树, 并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库, 从50275个句法树中发现1529处错误, 正确率为100%。进一步, 所有错误可以分为3个层次: 分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量, 并且适用于各类型的依存树库。  相似文献   

11.
IntroductionMuch recent research on statistical parsers hasfocused on English.English has a large syntacticcorpus,the English UPenn Treebank.Everysentence in this corpus corresponds to a syntacticstructure[1] .Many kinds of parsers for Englishhave been developed based on this corpus[2 4 ] .Thestructure of the Chinese language is quite differentfrom English and there have been only a fewefforts to build syntactic corpora in recent years.Two syntactic corpora were just announced in2 0 0 0 ,t…  相似文献   

12.
为提高信息检索中检索结果的查准率,提出了基于句法分析以及带权路径长度的句子相似度计算方法。该方法首先对用户问句进行了分词、词性标注以及句法分析处理,并根据处理后的结果对该句进行了关键词提取、加权和同义词近义词扩展处理。然后提出了基于带权路径长度计算的方法,并用该方法计算用户问句与检索信息标题句之间的相似度,即问句的带权路径长度与标题句的带权路径长度的相对比值,以此对检索结果进行二次排序,提高检索结果查准率。实验表明,该句子相似度方法能有效地提高信息检索中检索结果的查准率。  相似文献   

13.
汉语单句谓语中心词识别知识的获取及应用   总被引:13,自引:0,他引:13  
在基于实例的机器翻译(EBMT)的语句相似度研究中,确定谓语中心词以把握句子的整体结构是至关重要的。以标注了谓语中心词的3000句汉语单句作为训练集,将候选词本身的语法属性以及上下文环境作为该候选词的归类特征,通过建立统计决策树模型获取谓语中心词的识别知识。应用统计决策树进行了谓语中心词的自动识别,并获得了较为满意的测试结果。  相似文献   

14.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN (dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP (microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK (sentences involving compositional knowledge)数据集上模型的皮尔森相关系数能达到87.5,在MSRvid (microsoft video paraphrase corpus)数据集上模型的皮尔森相关系数能达到92.2。  相似文献   

15.
基于句型系统的中文问题理解研究   总被引:1,自引:1,他引:0  
提出了一种基于向量空间模型的句型识别方法,该方法通过基于句型模式的问句句法树规约,得到句子关于句型模式的句型结构,再计算句型结构与句型模式之间的相似度来实现问句的句型识别.并在汉语疑问句句型系统的基础上,通过句型识别实现了对问题的分类和问题理解.测试结果表明,该方法提高了问题理解的准确度.  相似文献   

16.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

17.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

18.
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号