首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
信息抽取技术中,隐式篇章关系识别一直是研究难点.针对现有的有监督篇章关系识别方法中需要大量人工标注数据的缺点,提出了用自训练的策略实现半监督的隐式篇章关系的自动识别模型,尝试仅用少量标注样本,却获得和有监督方法相媲美的识别准确率,为未来实时大数据篇章关系识别提供了新的契机.此外,为了进一步提高识别的准确率,还针对词对特征、产生式特征、动词特征等9种篇章关系特征进行特征组合分析,构建候选篇章关系实例的知识表示,对模型进行优化.通过在Penn Discourse Treebank(PDTB2.0)语料库上的实验结果分析表明,该模型比传统有监督识别方法在准确率和F-score上分别提高了5.2%和13.5%.  相似文献   

2.
针对中文细粒度隐式篇章关系识别进行研究。考虑细粒度篇章关系的方向性特点, 提出一种基于远距离监督的特征学习算法。该算法使用远距离监督的方法, 自动标注显式篇章数据, 然后利用词与连词之间的相对位置信息, 训练各个词的词表达, 将词的修辞功能以及关系的方向性编码到密集词表达中, 将这样的词表达应用到细粒度隐式篇章关系分类器。实验结果表明, 在细粒度隐式篇章关系识别任务中, 该方法的分类准确率达到49.79%, 比未考虑篇章关系方向性的方法有较大程度的提高。  相似文献   

3.
篇章级句间关系分析包括语义单元的切分和各个单元之间的语义关系识别.已有的研究主要面向英文,到目前为止,尚无可用的中文篇章级句间关系自动分析系统发布.在中文篇章关系语料库的基础上,首次实现面向中文的篇章级句间关系自动分析系统,包括语义单元切分、连词识别、显式语义关系识别以及隐式语义关系识别等.实验结果显示:该系统在显式句间关系识别上F-score为89.8;,隐式句间关系识别上F-score为55.5;.  相似文献   

4.
隐式篇章关系识别是篇章分析领域中极具挑战性的子任务,其挑战性在于难以捕捉论元之间的交互信息,并对这类交互信息进行联合的表示学习(交互信息即为论元中有益于体现关联关系及关系类型的词义和语义信息)。针对这一问题,文章提出一种基于堆叠式注意力机制的隐式篇章关系分类方法,即,将论元的自注意力分布特征应用于论元之间的交互式注意力计算,通过自注意力和交互式注意力的信息融合,加大了论元间关联信息的权重。文章利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验。实验结果表明,相较于基准系统,该方法的F1值在四大类关系上分别提高了6.47%、3.94%、3.82%和6.57%,准确率分别提高了6.41%、2.68%、6.88%和3.82%。  相似文献   

5.
针对篇章隐式关系检测较难的问题,提出了一种基于语义场景匹配的平行推理方法。该方法利用框架语义学,将论元抽象为概念一级的语义描述(简称语义场景),实现描述形式的压缩。基于大规模静态数据,通过语义场景的匹配挖掘可比较论元辅助关系推理。该方法能够在保证检测精度的同时,提升检测效率。利用宾州篇章树库(penn discourse tree bank,PDTB)对这一检测方法进行评测,检测精度为55.26%。  相似文献   

6.
将篇章结构表示为小句关联结构, 与修辞结构等层次化篇章结构模式相比, 可以有效地刻画非连续和跨层级的小句之间的直接语义关联。首先, 提出篇章小句关联结构的形式表示、判断准则和形式限制, 并进行人工标注。然后, 对汉语篇章小句关联结构进行自动识别。在自建汉语篇章小句关联结构语料库上, 基于分类模型, 设计连接词和词汇等分类特征, 得到的最佳识别准确率达92.70%。实验结果表明, 语料整体取样比独立取样取得的去环效果好; 词汇、小句距离及句域等分类特征对识别的贡献较大; 远距离和跨大句是小句关联识别的难点, 但相邻小句和同一大句内的小句对的不相关识别难度更大。  相似文献   

7.
基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。  相似文献   

8.
隐式篇章关系识别的主要挑战是如何表示两个文本单元的语义信息.由于句子的语义信息往往由语法树中的信息焦点(谓词部分)所决定,所以关注信息焦点可以提升篇章关系识别的效果.为了增强信息焦点的作用,引入树状长短时记忆(tree-structured long short-term memory,Tree-LSTM)网络,使用其遗忘门的特性区别对待不同孩子节点的信息.最后利用神经张量网络(neural tensor network,NTN)来计算两个句子语义向量之间的关系.基于PDTB2.0(Penn Discourse Treebank)语料数据进行实验,实验结果表明混合树结构神经网络比传统的RNN模型在大部分关系中的Fscore上提高了3.0%左右.  相似文献   

9.
中文篇章零元素语料库构建   总被引:1,自引:0,他引:1  
针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。  相似文献   

10.
文章根据复合动词前后项动词对旬中名词的格支配关系,将日语复合动词分为三大类,即并列关系、修饰关系和融合关系。其中修饰关系又分为中心词前置式和中心词后置式两类。通过对句中名词的格支配关系分析,也可以为分析复合动词自他性的特征提供一个新方法。  相似文献   

11.
科技文献中回顾前人研究成果、分析存在的问题、提出解决方法等语言片段是论文创新性信息的构成部分。分析论文写作过程中问题分析信息的逻辑思维以及在文章中呈现的篇章关系,综合利用引用分布特征、篇章关系特征、否定情感特征构建具有普适性的信息抽取语义模式。从论文原始文本中通过匹配定义好的语义模式抽取出问题分析信息。同时,利用引导词特征、语义相似度计算从论文文本中抽取出论文的主要工作信息。以数据挖掘领域科技文献为例,对比人工抽取结果对提出的方法进行评价,结果表明该方法能较准确抽取相应信息,为科技论文聚类、论文推荐提供基础数据来源。  相似文献   

12.
自然语言种类丰富、形式灵活多变的特征使得隐式关系抽取成为目前关系抽取领域中富有难度和挑战性的任务之一。通过引入构式语法理论和依存句法分析两种认知语言学范畴的理论技术,构建了一种面向中医古籍中隐式关系的抽取方法。首先利用构式语法理论制定文本构式化策略、分析并定义出8种构式特征与5种构式类型,并使用CART(classification and regression tree, CART)分类模型完成文本分类;其次对其中4类构式使用依存句法分析技术构建句法树,通过分析句法树中的特定结构,制定医学类实体间的关系三元组抽取规则,实现隐式关系抽取;最后在经典中医古籍《黄帝内经》数据集上进行测试,实验结果表明了方法的有效性。  相似文献   

13.
根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。  相似文献   

14.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

15.
对常见词义关系进行陈述与分析,并将其应用到篇章中,能更好地促进学生对于文章的理解.  相似文献   

16.
在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。  相似文献   

17.
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec 模型获得训练文本对应的词向量,获得短文本特征; 其次将短文本特征在TextCNN 中进一步提取高层次特征,通过K-max 池化操作后放入Softmax 分类器中进行训练得出分类模型; 最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。  相似文献   

18.
对常见词义关系进行陈述与分析,并将其应用到篇章中,能更好地促进学生对于文章的理解。  相似文献   

19.
语音识别模型中帧间独立假设在给模型计算带来简洁的同时,不可避免地降低了模型精度,增加了识别错误。该文旨在寻找一种既能满足帧间独立假设又能保持语音信息的特征。分别提出了基于k均值和基于归一化类内方差的语音识别自适应聚类特征提取算法,可以自适应地实现聚类特征流的提取。将该自适应特征分别应用在Gauss混合模型-隐Markov模型、基于段长分布的隐Markov模型和上下文相关的深度神经网络模型这3种语音识别模型中,与基线系统进行了实验对比。结果表明:采用基于归一化类内方差的自适应特征可以使得3种语言模型的识别错误率分别相对下降10.53%、5.17%和2.65%,展示了语音自适应聚类特征的良好性能。  相似文献   

20.
日语并列关系是日语依存关系的一种.传统的日语依存关系解析不特殊解析并列关系,识别并列关系较为困难.为此提出一种日语并列关系解析方法:基于支持向量机(SVMs)识别并列关键字,如果存在并列关键字,基于SVMs解析句中的并列关系,并将并列关系解析结果用于随后的依存关系解析.用京都大学语料库进行测试,结果表明并列关系解析与依存关系解析均取得较高的正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号