首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
利用选择类问题具有明确候选项的特点, 简化问题分类过程, 并针对长文本语义蕴含短文本语义的语言现象, 提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下, 采用维基百科中文语料库, 以全国各省市高考地理选择题作为实验数据, 通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明, 基于文本蕴含方法的准确率为36.93%, 比基于词嵌入的句子相似度方法提高2.44%, 比基于向量空间模型的句子相似度方法提高7.66%, 验证了该文本蕴含强度计算方法的有效性。  相似文献   

2.
针对微博话题观点摘要问题,提出一种基于LDA与评价对象相结合的微博观点摘要方法.首先,利用LDA模型得到话题的词分布矩阵和文档的话题分布矩阵,把两个矩阵的乘积作为各个词在句子中的权重分布矩阵,再利用词频与词权重分布矩阵的乘积作为词的重要度;然后,通过词的词性标注规则从句子中选择候选评价对象,再计算句子中候选评价对象的稳定性;最后,把句子中所有词的重要度与句子中所有候选评价对象的稳定性的总和作为句子权重,并从大到小排序,再进行观点句识别,并去除相似性较大的句子,抽取前20个句子作为话题观点摘要.实验结果表明,此方法可以有效地抽取微博观点摘要.  相似文献   

3.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

4.
以情感依存元组(EDT)作为中文情感表达的基本结构,把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对TF-IDF方法进行改进,再结合基于交叉熵方法提取主题特征词,同时考虑了新闻文章标题的主题表征作用,将标题词纳入主题特征集;然后基于空间向量模型计算句子与主题特征向量的相似度,在此基础上考虑句子位置、长度及句子与标题的相似度,计算句子的主题相关度以抽取主题句;最后建立情感依存元组判别模型计算主题句的情感,采用主、客观分类规则筛选出新闻倾向关键句。本方法在COAE 2014评测中各项指标皆逼近最好成绩,表明基于情感依存元组的分类方法具有较高的分类性能。  相似文献   

5.
由于文本中事件之间的时序关系可以帮助人们更好地理解文本内容,故针对新闻报道类文本,将事件作为其基本语义单元,并根据时序关系建立事件有向网络文本表示模型;利用PageRank算法结合主题相关度对时序网络进行节点重要度计算及调整;最后,按照重要度以及事件发生的顺序进行排序,并按照一定的压缩比提取摘要句,删除冗余的句子,将事件对应的原语句作为摘要。实验结果表明,基于事件时序关系的自动摘要方法效果较好。  相似文献   

6.
为了能在多文档自动摘要过程中更好地划分子主题,提出了一种基于半监督学习的子主题划分方法:首先计算句子的语义相似度;然后通过层次聚类对可信度高的句子进行主题类别标记,生成少量已标记主题类别的句子集,在此基础上对所有句子进行constrained-k-means聚类,通过交叉验证的方法确定子主题的数目k;最后使用k-means聚类获得多文档的各个子主题.实验结果表明,该方法有效地提高了子主题的识别率.  相似文献   

7.
针对高考语文阅读理解,文章通过对题干、篇章句子片段、选项三者的关系进行建模,提出一种基于题干与选项一致性判别模型的阅读理解答案预测方法。模型由篇章句子与题干的相关度和对选项的支持度进行选项置信度度量,并基于这两个度量定义了联合打分函数。其中相关度通过题干定位到的原文出处与句子片段的距离来度量,支持度通过句子相似度特征、反义匹配特征、否定特征三个语义特征来度量。同时,在近10年的高考真题和模拟题中分别进行了三组实验,实验结果给出了该方法在不同特征组合和参数设置上的答题效果。  相似文献   

8.
微博观点句识别对于情感分类、舆情调查等具有重要的作用,为了尽量减少训练语料的标注工作,文章提出一种主观强度Bootstrapping优化的方法来识别微博观点句。首先,采用优势率和独立主观表达能力计算主观性特征的主观强度,再结合其在测试集微博句子中的权重信息计算微博句子的主观强度并进行排序;然后,进行Bootstrapping优化,以训练集中主客观句子特征分布的相对熵作为阈值将排序序列中置信度高的主客观句子分别加入到训练集中,重新训练主观性特征的主观强度,迭代进行直至不再有新句子加入。实验结果表明,本方法具有一定的可行性和有效性,Bootstrapping过程的引入可以极大优化观点句识别的结果。  相似文献   

9.
信息检索模块是自动问答系统中的主要组成部分.实现问题检索的关键问题是句子相似度计算问题.提出的基于特定领域的加权语义相似度算法,首先计算FAQ库中某问句关键词的权重,再利用语义相似度方法,分别计算目标问句各分词与FAQ库问句关键词的相似度矩阵,最后求得2个句子的最终相似度.逐一计算和比较目标问句与FAQ中每个问句的相似度,在大于一定阈值时,最大相似度所对应问句答案输出给用户.由于考虑词语语义和权重2方面信息,实验表明其具有较好的匹配效果.  相似文献   

10.
提出一种基于最大树法的生成多文档文摘子主题划分方法.对多文档集合中的句子进行基于语义词典的相似度计算,形成相似度矩阵.提出了将相同或相似的句子通过模糊聚类的方法归并成一类,每一类代表一个子主题,通过抱团结构分析划分出子主题.实验结果表明,生成的多文档文摘覆盖性强,冗余信息少,具有一定实用价值.  相似文献   

11.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

12.
在特定领域问答系统中,领域知识直接影响问答效果.本文提出了一种领域问答答案提取方法,以问题分析得到问题查询、问题类型及答案类型为基础,借助领域知识检索获得答案提取候选段落.对于定义性问题,结合关键词加权权重计算方法及句子与问题语义相似度方法,对候选段落或句子与问题相关度排序,提取相关度高的句子或段落作为答案,对于数词或列表性实体问题,借助命名实体识别,提取与问题中心相关的领域实体作为答案.在云南旅游领域进行了答案提取实验,结果表明该方法具有较好的效果.  相似文献   

13.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

14.
将传统的"词袋"思想进行扩展,把文档看成由句子组成的"句袋",通过依存句法分析得到"句袋"与查询中词间的依存关系。利用两者依存关系的匹配程度,计算冗长查询和初次检索返回文档之间的相似度,对初始检索结果进行重排序。通过在TREC标准数据集上的实验,证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况,检索结果的MAP值和P@N都有显著提高。  相似文献   

15.
将传统的“词袋”思想进行扩展, 把文档看成由句子组成的“句袋”, 通过依存句法分析得到“句袋”与查询中词间的依存关系。利用两者依存关系的匹配程度, 计算冗长查询和初次检索返回文档之间的相似度, 对初始检索结果进行重排序。通过在TREC标准数据集上的实验, 证明该方法能够较有效地解决查询的冗长导致偏离查询主题和低召回率情况下相关文档排序靠后的问题。特别是对于低召回率的情况, 检索结果的MAP值和P@N都有显著提高。  相似文献   

16.
针对CO和MO文摘句排序算法的缺陷,提出了一种将局部主题间的内聚度与MO算法相结合进行文摘句排序的新方法.在统计局部主题间相对位置的基础上,建立它们之间的关系有向图并计算其内聚度;排序过程中每从有向图中输出一个顶点,便从剩余顶点中查找与其具有最大内聚度的顶点,若该内聚度大于阈值,则将这两个顶点所代表的局部主题文摘句置于摘要中相邻的位置.实验结果表明,该算法排序生成的文摘更具连贯性和可读性.  相似文献   

17.
高考阅读理解选择题是基于背景材料,通过对材料的"理解"从多个选项中选出最佳选项。由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到,因此从背景材料中挖掘信息并与选项进行相关性分析是解答该类问题的关键,而句子级的语义相关性分析是背景材料与选项相关性分析的基础。该文通过对大量高考科技文文意理解类选择题进行分析,提出基于多维度投票算法的句子语义相关度计算方法。该方法将不同维度的语义相关性作为度量标准,运用投票算法的思想,选取问题的最佳选项。在近十年北京市高考真题上进行测试,解答准确率为53.84%,验证了该方法的有效性。  相似文献   

18.
针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。  相似文献   

19.
句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).  相似文献   

20.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号