首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 375 毫秒
1.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

2.
为了解决现有句子相似度算法未考虑句子语义信息的问题,提出了一种基于词法、句法和语义的句子相似度计算方法.将句子相似度分为词法层、句法层、语义层3个层次.在词法层,通过构建句子的词汇相似度矩阵和数字序列相似度矩阵来计算词法相似度;在句法层,使用概念词汇转化成的RDF三元组相似度来计算句法相似度;在语义层,基于本体树状结构中最短路径表示的语义距离来计算语义相似度.然后,提出句子语义相似度计算模型,采集图书领域句子对作为测试集,构建图书领域本体作为知识源.实验结果表明,所提方法具有更高的准确率和召回率,其F-度量值达0.649 9,与余弦相似度算法、基于编辑距离的算法和基于TF-IDF的算法相比分别提高约12%、17%和16%.  相似文献   

3.
为了提高产品评论语句相似度计算的准确率,提出了一种新的基于多特征融合的相似度计算模型。在构建相似度计算模型时,抽取句子的名词、动词和形容词作为关键词构成句子的向量表示,并将关键词的频次信息及其修饰成分信息、句子的主谓结构和动宾结构等特征信息都纳入到向量模型当中,通过各特征要素的重要度来表征这些信息在句子相似度计算中的重要程度。实验结果表明,该计算模型提升了产品评论语句相似度计算的准确率,对提升产品评论语句的聚类分析能力具有重要意义。  相似文献   

4.
句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).  相似文献   

5.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

6.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

7.
目的针对当前常用的汉语句子相似度计算方法存在的问题,结合语言习得特点,提出了一种基于动态特征词的中文句子相似度计算方法。方法首先以特征词作为语块切分边界,提取左右语块信息,采用语义向量空间模型;然后计算2个句子对应的左右组块的相似度;最终将各组块的相似度量值加权求和作为2个句子的相似度。结果实验表明,提出的方法计算结果较为理想,与人工判断的相似度较为一致。结论基于动态特征词的中文句子相似度计算方法在常用句式中具有更好的效果。  相似文献   

8.
以情感依存元组(EDT)作为中文情感表达的基本结构,把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对TF-IDF方法进行改进,再结合基于交叉熵方法提取主题特征词,同时考虑了新闻文章标题的主题表征作用,将标题词纳入主题特征集;然后基于空间向量模型计算句子与主题特征向量的相似度,在此基础上考虑句子位置、长度及句子与标题的相似度,计算句子的主题相关度以抽取主题句;最后建立情感依存元组判别模型计算主题句的情感,采用主、客观分类规则筛选出新闻倾向关键句。本方法在COAE 2014评测中各项指标皆逼近最好成绩,表明基于情感依存元组的分类方法具有较高的分类性能。  相似文献   

9.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN (dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP (microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK (sentences involving compositional knowledge)数据集上模型的皮尔森相关系数能达到87.5,在MSRvid (microsoft video paraphrase corpus)数据集上模型的皮尔森相关系数能达到92.2。  相似文献   

10.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

11.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

12.
隐喻是自然语言中比较常见的语言现象,在情感计算过程中有些句子的情感是由隐喻引起的,因此隐喻问题的解决将影响情感计算的结果.为此结合相关的隐喻理论,从机器学习的角度,对汉语文本中的显性隐喻的识别进行研究.以本体和喻体所属的范畴不同作为切入点,首先利用词性标注和依存句法分析提取句子中的本体词汇和喻体词汇,然后进行范畴划分和词汇语义相似度计算,最后使用支持向量机进行学习,从而对特定的隐喻句子进行识别.这一研究对后续的隐喻自动识别和隐喻理解起到了一定的作用.  相似文献   

13.
针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题,提出基于BERT预训练模型及多视角循环神经网络的文本匹配模型。通过BERT-whitening方法对BERT输出的句向量进行线性变换优化,并利用多视角循环神经网络将两句子不同位置的BERT动态词向量进行双向交互计算;将句向量与词粒度交互向量进行融合后计算结果。实验结果表明,提出的模型相较于对比模型有明显性能提升,实用性良好。  相似文献   

14.
依存语法是一种诞生于1959年的基于词间关系的形式语法,它强调以动词为句子中心,其他词汇依存于动词。依存语法具有形式简单、更适合于处理自由语序的语言、与语义关系接近等优势,使得其在处理汉语句子时具有优势。  相似文献   

15.
将传统的“词袋”思想进行扩展, 把文档看成由句子组成的“句袋”, 通过依存句法分析得到“句袋”与查询中词间的依存关系。利用两者依存关系的匹配程度, 计算冗长查询和初次检索返回文档之间的相似度, 对初始检索结果进行重排序。通过在TREC标准数据集上的实验, 证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况, 检索结果的MAP值和P@N都有显著提高。  相似文献   

16.
基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值的欧式距离、夹角余弦等特征,主要是用来刻画问题句和答案句的相似程度.实验结果表明,把词的分布式实值表示的向量作为最大熵模型的特征对于测试集上的HumSent准确率的提升是有效的.  相似文献   

17.
基于传统向量空间模型的问答系统在向量维数较大时所需的时间开销较大。为了尽可能地减少所需时间,利用数据库SQL语句及视图来统计词在句子中出现的频率和词对句子的分辨能力。实验结果表明,随着向量维数的增大,该方法在时间开销上优于传统的处理方法。  相似文献   

18.
特定领域的FAQ问答系统通常存在以下3个问题:(1)如何有效地对句子进行语义表示;(2)如何有效地进行句子间的语义匹配;(3)领域词汇的分词问题。为解决上述3个问题,提出一种基于Tri-BiLSTM-CNN的深度学习模型。首先,将双向长短期记忆网络和卷积神经网络结合构建网络模型,综合利用了BiLSTM处理序列化数据的优势和CNN捕获局部特征的优势。然后,采用Triplet并列式排列结构进行句子之间的匹配。最后,使用字向量替代词向量,避免了分词错误对模型的影响。在钻井安全领域的真实数据集上进行实验验证,结果表明,Tri-BiLSTM-CNN模型能更好地对句子语义进行向量化表征,显著提升句子相似度计算的准确率,而且效果明显优于CNN和LSTM两种网络结构。将该模型用于钻井安全领域的FAQ问答系统中,有效减少了人工成本,对改善钻井工作的效率和质量具有重要意义和应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号