首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。  相似文献   

2.
在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标语言,最后基于指针网络将映射的目标语言关键词融入到摘要生成过程中.在构建的汉越跨语言摘要数据集上的实验结果表明,相比于直接的端到端的方法,融入关键词概率映射信息可以有效地提升低资源跨语言摘要的质量.  相似文献   

3.
词向量具有良好的语义特性,可用于改善和简化许多自然语言信息处理应用。本研究利用CBOW和Skip-gram两种模型架构在不同数据和不同维度下训练蒙古语词向量,然后结合蒙古语特征设计一个语义语法综合测试集,并在此测试集上用语义和语法相似度来评测词向量质量。研究结果表明,蒙古语语义和语法相似性任务上,Skip-gram模型优于CBOW模型,Skip-gram模型的窗口大小为5的情况下,词向量质量最好,且随着词向量维度或训练数据的增大,词向量质量有明显的提高。  相似文献   

4.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

5.
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系。实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词。另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系。  相似文献   

6.
k-近邻(k NN)分类算法因具有不对数据分布做任何假设、操作简单且泛化性能较强的特点,在人脸识别、文本分类、情感分析等领域被广泛使用.k NN分类算法不需要训练过程,其简单存储训练实例并根据测试实例与存储的训练实例进行相似度比较来预测分类.由于k NN分类算法需要计算测试实例与所有训练实例之间的相似度,故难以高效地处理大规模数据.为此提出将寻找近邻的过程转化为一个优化问题,并给出了原始优化问题与使用数据划分优化问题的最优解下目标函数差异的估计.通过对此估计的理论分析表明,聚类划分可以有效的减小此差异,进而保证基于聚类的k-近邻分类(DC-k NN)算法具有较强的泛化性能.在公开数据集的实验结果显示,DC-k NN分类算法在很大程度上为测试实例提供了与原始k NN分类算法相同的k个近邻进而获得较高的分类精度.  相似文献   

7.
对于终身主题模型而言,先验知识的正确性对后续的建模任务起到了至关重要的作用.因此,提出了一种基于语义相似度改进的少样本终身主题模型SS-AMC(Semantic Similarity-AMC),利用BERT获取共现词对的词向量,计算其语义相似度,通过设置相似度阈值进而优化知识库中的先验知识,以提升少样本终身主题模型的性能.在中英文数据集上的实验结果表明,SS-AMC模型的主题一致性较基线模型有了明显的提升.  相似文献   

8.
该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话人识别方法。基于GMM-UBM(通用背景模型)识别框架,在自适应训练和测试阶段计算并保存自适应训练语句和测试语句在UBM上使特征帧得分最高的Gauss分量编号(GMM token)出现的比例(配比),然后在测试阶段计算测试语句和自适应训练语句的GMM托肯分布的配比的相似度GTRS,当GTRS小于某阈值时对测试得分乘以一个惩罚因子,将结果作为测试语句的最终得分。在MASC数据库上进行的实验表明,该方法能够使系统识别性能有一定的提升。  相似文献   

9.
迁移学习专注于解决监督学习在小数据集上难以获得好的分类效果的问题,与传统监督学习的基本假设相比,它并不要求训练集和测试集服从相同或相似的数据分布。通过在标注资源丰富的源语言中学习,并将目标语言的文档投影到与源语言相同的特征空间中去,从而解决目标语言因数据量较小而难以获得好的分类模型的问题。选择亚马逊在书籍、DVD和音乐类目下的中文、英文和日文评论作为实验数据,情感分析作为研究任务,提出了一种新的跨语言深度表示学习模型(cross lingual deep representation learning,CLDRL),实现了不同语言环境下的知识迁移。实验结果表明,CLDRL模型在跨语言环境下最优F1值达到了78.59%,证明了该模型的有效性。  相似文献   

10.
虽然源语言和目标语言单语数据已被证明通过正向翻译和反向翻译改进神经机器翻译非常有用,但如何更有效的同时使用还值得更深入的研究.为了在神经机器翻译中更有效地同时使用源语言和目标语言单语数据,本文提出了一种基于集束搜索的正向翻译和基于最优N随机采样的反向翻译的组合方法.具体地,将该方法应用于第十七届全国机器翻译大会(CCMT 2021)汉英和英汉新闻领域的翻译评测任务,实验结果表明,与其他常用的单语数据增强方法相比,该方法可以更有效地提升神经机器翻译模型的翻译质量.此外,在使用该方法之前,先进行领域知识迁移还可以进一步取得翻译质量的提升.  相似文献   

11.
语义蒙太奇是诗歌语言中经常使用的手法。语义蒙太奇通过相似性使不同认知域的事物得以互通,以达到说明解释目标认知域的目的。根据目标域的有无,可以将语义蒙太奇分为目标域显现的语义蒙太奇和目标域潜藏的语义蒙太奇。  相似文献   

12.
语义相似计算驱动领域自动问答   总被引:3,自引:0,他引:3  
研究实体相似性的认知心理特征和受限领域自动问答(QA)系统的形式特点.基于结构对齐和几何相似模型,把词语概念描述分解为属性部分和语义角色部分,各部分结构分别对齐后,计算对齐义原的关系距离,加权组合计算词语的相似度.该方法也适用于解析成语义向量表示的疑问句的相似度计算.融合通用本体、领域本体和领域知识文本,构造了支持语义计算求解某一银行QA问题的知识库.实验表明,该方法可以提高领域QA系统的用户满意度.  相似文献   

13.
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径.基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果.然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判.笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异.其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判.在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F1值提高了3.51%.  相似文献   

14.
FAQ (frequently asked question) is widely used on the Internet, but most FAQ's asking and answering are not automatic. This paper introduces the design and imple mentation of a FAQ automatic return system based on semantic similarity computation, including computation model choo sing, FAQ characters analyzing, FAQ data formal expressing, feature vector indexing, and weight computing and so on. According to FAQ features of sentence length short, two mapping, strong domain characteristics etc. Vector Space Model with special semantic process was selected in system, and corresponding algorithm of similarity computation was proposed too. Experiment shows that the system has a good performance for high frequent and common questions.  相似文献   

15.
为了提高语义Web查询的查全率和查准率,文中提出了一种基于形式化领域本体的查询处理方法.首先采用描述逻辑表达领域本体的语法和语义,实现领域本体的形式化转换;然后基于转换后的形式化领域本体,采用含半幺群概括演算作为基于形式化领域本体查询转换的目标语言,定义了用户查询到含半幺群同态查询的转换规则和语义优化处理、查询重写规则,最后通过实验验证了该方法的查询性能.  相似文献   

16.
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量.提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示.在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平...  相似文献   

17.
翻译中的范畴问题是指在词语翻译中由于原语言和目的语言的范畴不同而引起的不对等问题。在类典型及基本层次范畴理论的视角下,英汉翻译中的词语范畴在类典型、范畴域、范畴层次性和文化意义上存在不同,并且存在范畴的缺失现象。词语翻译的本质,模式被赋予新的意义。这有助于对等方面译文质量的提高。  相似文献   

18.
隐喻在语言和思维中无处不在,是人们对抽象范畴进行概念化的强有力的认知工具,是人们思维、行为和表达思想的一种系统的方式。宋词中富含植物隐喻,其英译不仅是一种语言形式的转化,更是一种认知行为。从认知语言学的角度,基于源域和目标域的相似性,对其中的植物隐喻及其英译进行分析。表明英汉民族对其认知有相似也有不同。探索中文认知域的...  相似文献   

19.
Ontology mapping is a key interoperability enabler for the semantic web. In this paper,a new ontology mapping approach called ontology mapping based on Bayesian network( OM-BN) is proposed. OM-BN combines the models of ontology and Bayesian Network,and applies the method of Multi-strategy to computing similarity. In OM-BN,the characteristics of ontology,such as tree structure and semantic inclusion relations among concepts,are used during the process of translation from ontology to ontology Bayesian network( OBN). Then the method of Multi-strategy is used to create similarity table( ST) for each concept-node in OBN. Finally,the iterative process of mapping reasoning is used to deduce new mappings from STs,repeatedly.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号