排序方式: 共有22条查询结果,搜索用时 15 毫秒
11.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。 相似文献
12.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器... 相似文献
13.
鉴于现有基于单词的领域特征学习方法在领域识别上的精度较低,为提高领域判别和提供准确的翻译,提出一种单词级别的领域特征敏感学习机制,包括两方面:1)编码器端的上下文特征编码,为了扩展单词级别的领域特征学习范围,引入卷积神经网络,并行提取不同大小窗口的词串作为单词的上下文特征;2)强化的领域特征学习,设计基于多层感知机的领域判别器模块,增强从单词上下文特征中获取更准确领域比例的学习能力,提升单词的领域判别准确率。在多领域UM-Corpus英–汉和OPUS英–法翻译任务中的实验结果显示,所提方法平均BLEU值分别超过强基线模型0.82和1.06,单词的领域判别准确率比基线模型分别提升10.07%和18.06%。对实验结果的进一步分析表明,所提翻译模型性能的提升得益于所提出的单词领域特征敏感的学习机制。 相似文献
14.
介绍实体链接的概念和步骤以及基于深度学习的命名实体链接相关问题和研究现状,分析实体链接研究中存在的问题及相应的解决模型,并介绍相关数据集和评测方法.总结国际评测会议中实体链接的现状,展望未来的研究方向. 相似文献
15.
面向专利文献的汉语分词技术研究 总被引:2,自引:0,他引:2
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。 相似文献
16.
实体关系抽取在挖掘结构化事实的信息抽取系统中扮演着重要的角色。近年来,深度学习在关系抽取任务中取得了显著的成果,同时,注意力机制也逐步地融入到神经网络中,进一步提高了关系抽取的性能。但是,目前的注意力机制主要关注一些低层次的特征,比如词汇等。本文提出一种基于高层语义注意力机制的分段卷积神经网络模型(PCNN_HSATT,high-level semantic attention-based piecewise convolutional neural networks),该模型将注意力机制设置在分段最大池化层后,动态地关注了高层次的语义信息。除此之外,由于中文实体关系语料稀疏性较大,本文利用同义词词林对COAE2016语料进行增强以扩大数据规模。最后在COAE2016和ACE2005的中文语料上进行实验,F1值分别达到了78.41%和73.94%,与效果最好的SVM方法相比分别提高了10.45%和0.67%,这充分证明了PCNN_HSATT模型在中文关系抽取上的有效性。 相似文献
17.
使用源语言复述知识改善统计机器翻译性能 总被引:2,自引:0,他引:2
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。 相似文献
18.
为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。 相似文献
19.
20.
针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型,将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。 相似文献