首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分类器模型是目前识别因果关系的主要模型,该方法存在的问题是只考虑2个事件之间的关系,没有考虑同一文档中其他关联事件所包含的信息,识别结果往往存在逻辑矛盾。该文提出了一个中文事件因果关系识别的全局优化方法,该方法采用整数线性规划(integer linear programming,ILP)的推理方法,对基本逻辑关系、因果标志词、事件类型、论元信息进行有效约束,以文档为单位来优化因果关系识别。在该文标注语料上的实验结果表明:与分类器方法相比,该文提出的全局优化方法的F1值提升了5.54%。  相似文献   

2.
针对高考语文阅读理解,文章通过对题干、篇章句子片段、选项三者的关系进行建模,提出一种基于题干与选项一致性判别模型的阅读理解答案预测方法。模型由篇章句子与题干的相关度和对选项的支持度进行选项置信度度量,并基于这两个度量定义了联合打分函数。其中相关度通过题干定位到的原文出处与句子片段的距离来度量,支持度通过句子相似度特征、反义匹配特征、否定特征三个语义特征来度量。同时,在近10年的高考真题和模拟题中分别进行了三组实验,实验结果给出了该方法在不同特征组合和参数设置上的答题效果。  相似文献   

3.
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。  相似文献   

4.
识别和抽取XML文档中的关系信息及其出现模式   总被引:3,自引:0,他引:3  
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据.  相似文献   

5.
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.  相似文献   

6.
高考阅读理解选择题是基于背景材料,通过对材料的"理解"从多个选项中选出最佳选项。由于提供的背景材料相对较短且关键信息极具隐藏性,答案可能无法在背景材料中直接找到,因此从背景材料中挖掘信息并与选项进行相关性分析是解答该类问题的关键,而句子级的语义相关性分析是背景材料与选项相关性分析的基础。该文通过对大量高考科技文文意理解类选择题进行分析,提出基于多维度投票算法的句子语义相关度计算方法。该方法将不同维度的语义相关性作为度量标准,运用投票算法的思想,选取问题的最佳选项。在近十年北京市高考真题上进行测试,解答准确率为53.84%,验证了该方法的有效性。  相似文献   

7.
利用选择类问题具有明确候选项的特点, 简化问题分类过程, 并针对长文本语义蕴含短文本语义的语言现象, 提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下, 采用维基百科中文语料库, 以全国各省市高考地理选择题作为实验数据, 通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明, 基于文本蕴含方法的准确率为36.93%, 比基于词嵌入的句子相似度方法提高2.44%, 比基于向量空间模型的句子相似度方法提高7.66%, 验证了该文本蕴含强度计算方法的有效性。  相似文献   

8.
针对因果关系事件中对象、属性及其相互作用关系抽取工作的不足和因果关系中的长距离依赖问题,定义了创新问题的因果关系表达方式,提出了基于层叠跳跃链条件随机场的因果关系标注方法.首先通过低层线性链条件随机场模型对预处理过的候选集进行因果关系边界标注,其次对标注结果进行降噪和扩充,将其作为新的特征传递给高层跳跃链条件随机场模型用于识别因果角色,最后对高层结果进行指代消解和降噪.对多种类别的真实语料进行了实验,结果表明应用本方法可取得较好的标注效果.  相似文献   

9.
针对目前基于主题相似性生成多文档文摘的系统存在语义不精确、只能传达多篇具有同一主题的文档所携带的主要信息(横向文摘)的问题.本文基于HNC理论,提出的面向事件的多文档自动文摘模型,旨在用很短的文本来传达多篇具有同一事件的文档所携带的后续报道信息(纵向文摘).实验结果表明,本方法在信息覆盖率、信息冗余度和文摘流利度方面比TF×IDF方法有很大的改进.  相似文献   

10.
为了能在攻击目标受损之前检测到攻击事件,提出了面向网络行为因果关联的攻击检测方法.该方法基于SNMP管理信息库数据,根据攻击目标的异常行为,首先利用Granger因果关联检验(GCT)从检测变量中挖掘出与异常变量存在整体行为关联的基本攻击变量,然后针对异常行为特征再次利用GCT从基本攻击变量中挖掘出与异常变量存在局部行为关联的攻击变量,最后根据攻击变量和异常变量之间的因果关系,构建面向攻击方检测的攻击关联规则.在Trin00 UDPFlood检测实验中,所提方法成功挖掘出攻击变量udpOutDatagram,取得了满意的检测效果.实验结果表明,该方法能够在攻击方检测到攻击事件,为及时阻止攻击过程向攻击目标进一步扩散提供预警.  相似文献   

11.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

12.
针对传统时间关系只应用在机器学习方向关系抽取的问题,提出一种基于序列标注实体识别的关系抽取方法.先构建双向长短期记忆网络(Bi-LSTM)模型进行特征提取,再输入时间关系作为特征矩阵进行图卷积.实验结果表明:时间关系能提高因果关系抽取效果,并且包含时间关系的Bi-LSTM+GCN模型能有效抽取因果事件;带有时间关系的B...  相似文献   

13.
提出一种中文因果关系分析方法,以便更加细腻地表达因果关系.该方法由因果关系提取和权重计算组成.首先,构建了中文因果关系四元组数据集,将因果划分为核心名词和谓语状态,即原因中的核心名词、原因中的谓语或状态、结果中的核心名词、结果中的谓语和状态;然后,构建了中文因果关系抽取(CCE)模型,该模型由中文预训练的基于全词掩码训...  相似文献   

14.
陈玉娥 《科技信息》2012,(30):55+57-55,57
本文首先从网页文档中抽取出关键词建立用户模型,然后从语义的角度出发,基于"知网"进行词语相似度计算,进而判定搜索引擎返回的网页与用户模型的相似度从而达到过滤信息的目的。实验表明,系统比传统的利用向量空间模型进行信息过滤具有更好的精度。  相似文献   

15.
基于因果图的一种近似推理算法   总被引:10,自引:0,他引:10  
在因果图理论中,采用图形化和直接因果强度来表达知识和因果关系,它克服了贝叶斯网的一些不足,已经发展成了一个能够处理离散变量和连续变量的混合模型.但由于因果图的精确推理是NP难的,不能完全适应实际问题的需要,因此给出了一种近似推理算法,削减了因果图精确算法的步骤和需要的一些苛刻条件,使得计算的复杂度与事件的节点数同阶,并用具体例子说明了算法推理过程.  相似文献   

16.
考虑到文档中出现频率较高的词语能够体现文档的主题,设计了一种中文文档主题抽取算法.该算法首先对目标文档进行预处理,然后计算文档中每个词语的出现频率,用出现频率最高的几个词语作为文档的主题.其中,将词语间的相关度作为计算出现频率的参考因素.词语相关度的计算是基于中文知识库《知网》的方法.实验证明,本算法具有较高的准确性.  相似文献   

17.
为了解决OLDA模型中的主题混合和新主题不能及时发现的问题,基于OLDA模型提出一种改进的在线LDA模型(improved online LDA,IOLDA)。该模型根据主题强度为每个主题设置不同的遗传度,提出一种新的主题强度度量方法,根据文档-主题分布的集中程度为文档设置不同的权值,该方法可以有效降低宽泛主题的强度得分;利用模型主题对齐的特点,采用Jensen-Shannon距离横向计算话题间的关联。实验结果表明:本文提出的方法能够有效地在线分析主题的演化。  相似文献   

18.
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。  相似文献   

19.
基于领域本体的文档自动摘要算法   总被引:1,自引:0,他引:1  
介绍了一种以潜语义分析模型为基础,辅之以领域本体的文档自动摘要算法.该方法在传统的基于统计的奇异值分解算法基础上,通过领域本体引入了文档主题识别以及概念相似度计算,更好地用形式化的方式描述了文档的主要内容;在文档主题和概念相似度的指导下,使用统计方法和启发式规则抽取文档中的关键句子作为摘要,并通过实验证明提高了摘要的质量.  相似文献   

20.
概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法. 该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 NewsGroups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号