期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王丹丹徐金安陈钰枫张玉洁杨晓晖《北京大学学报(自然科学版)》2017,53(2)

针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。相似文献

2.

复述平行语料构建及其应用方法研究

王雅松刘明童张玉洁徐金安陈钰枫《北京大学学报(自然科学版)》2021,57(1):68-74

以汉语为研究对象, 提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强, 将英语复述平行语料迁移到汉语中, 同时人工构建汉语复述评测数据集。基于构建的汉语复述数据, 在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集, 预训练基于注意力机制的神经网络句子匹配模型, 训练模型捕获复述信息, 然后将预训练的模型用于自然语言推理任务, 改进其性能。在自然语言推理公开数据集上的评测结果表明, 所构建的复述语料可有效地应用在复述识别任务中, 模型可以学习复述知识。应用在自然语言推理任务中时, 复述知识能有效地提升自然语言推理模型的精度, 从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种, 可为其他语言和领域提供更多的训练数据, 生成高质量的复述数据, 改进其他任务的性能。相似文献

3.

融合门控机制的远程监督关系抽取方法 总被引：1，自引：0，他引：1

李兴亚陈钰枫徐金安张玉洁《北京大学学报(自然科学版)》2020,56(1):39-44

提出一种融合门控机制的远程监督关系抽取方法。首先在词级别上自动选择正相关特征, 过滤与关系标签无关的词级别噪声; 然后在门控机制内引入软标签的思想, 弱化硬标签对噪声过滤的影响; 最后结合句子级别的噪声过滤, 提升模型的整体性能。在公开数据集上的实验结果表明, 相对于句子级别噪声过滤方法, 所提方法的性能有显著提高。相似文献

4.

联合自编码任务的多机制融合复述生成模型

刘明童张玉洁张姝孟遥徐金安陈钰枫《北京大学学报(自然科学版)》2020,56(1):53-60

基于神经网络编码–解码框架的复述生成模型存在两方面的问题: 1) 生成的复述句中存在实体词不准确、未登录词和词汇重复生成; 2) 复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题, 本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型, 利用复制机制从原句复制词语来解决实体词和未登录词生成问题; 利用覆盖机制建模学习注意力机制历史决策信息来规避词汇重复生成。针对第二个问题, 基于多任务学习框架, 提出在复述生成任务中联合自编码任务, 两个任务共享一个编码器, 同时利用平行复述语料和原句子数据, 共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明, 提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题, 并提高了复述句的生成质量。相似文献

5.

基于网络文本的汉语多词表达抽取方法

龚双双陈钰枫徐金安张玉洁《山东大学学报(理学版)》2018,53(9):40-48

多词表达(multiword expressions, MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84.92%,第二层次多词表达识别的F值为89.58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。相似文献

6.

基于隐主题马尔科夫模型的多特征自动文摘简

刘江鸣徐金安张玉洁《北京大学学报(自然科学版)》2014,(1):187-193

相似文献

7.

融合物体空间关系机制的图像摘要生成方法

万璋张玉洁刘明童徐金安陈钰枫《北京大学学报(自然科学版)》2021,57(1):75-82

聚焦于图像中物体间位置关系这一特定信息, 提出一种融合空间关系机制的神经网络图像摘要生成模型, 以期为视觉问答和语音导航等下游任务提供物体方位或轨迹等关键信息。为了增强图像编码器的物体间位置关系学习能力, 通过改进Transformer结构来引入几何注意力机制, 显式地将物体间位置关系融合进物体外观信息中。为了辅助完成面向特定信息的抽取和摘要生成任务, 进一步提出相对位置关系的数据制作方法, 并基于SpatialSense数据集制作物体间位置关系的图像摘要数据集Re-Position。与5个典型模型的对比测评实验结果表明, 所提模型的5个指标在公开测试集COCO上优于其他模型, 全部6个指标在本文制作的Re-Position数据集上优于其他模型。相似文献

8.

无监督的句法可控复述模型用于对抗样本生成

杨二光刘明童张玉洁孟遥胡长建徐金安陈钰枫《北京大学学报(自然科学版)》2021,57(1):83-90

针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题, 提出仅需要单语语料训练的无监督的句法可控复述生成模型, 用以生成对抗样本。采用变分自编码方式学习模型, 首先将句子和句法树分别映射为语义变量和句法变量, 然后基于语义变量和句法变量重构原始句子。在重构过程中, 模型可以在不使用任何平行语料的情况下学习生成句法变化的复述。在无监督复述生成和对抗样本生成任务中的实验结果表明, 所提方法在无监督复述生成任务中取得最佳性能, 在对抗样本生成任务中可以生成有效的对抗样本, 用以改进神经自然语言处理(NLP)模型的鲁棒性和泛化能力。相似文献

9.

一种多源领域自适应命名实体识别方法

李佳芮刘健陈钰枫徐金安张玉洁《厦门大学学报(自然科学版)》2022,(4):617-623

领域自适应是解决低资源问题的一种通用方式，可应用于各种自然语言处理的任务中.当前针对命名实体识别(named entity recognition, NER)任务的领域自适应研究通常从单一的源领域迁移到目标领域，在目标领域和源领域相近的情况下，这种方式能够取得较好的识别效果，但是在目标领域与源领域相关度不高的情况下，单一领域迁移方式存在很大的局限性.针对这一问题，提出一种融合多源领域贡献度加权的自适应NER模型(multi-domain adaptation NER model based on importance weighting, MDAIW).1)通过多个领域的知识迁移来提升目标领域的实体识别性能；2)根据不同领域及其领域内样本对目标领域的重要性，计算领域贡献度；3)将领域贡献度引入到NER模型中，以此来实现更好的模型领域适应性.最终在多个目标领域上进行实验，性能皆优于当前性能最好的方法，验证了模型的有效性. 相似文献

10.

基于字形与语音的音译单元对齐方法

刘博佳徐金安陈钰枫张玉洁《北京大学学报(自然科学版)》2016,52(1):75-80

为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地提高机器音译的准确性。相似文献