首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 734 毫秒
1.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.  相似文献   

2.
基于统计的方法是当前机器翻译领域主流的研究方向之一,其中对齐模板统计翻译模型是效果较好的一个统计模型,而双语词聚类在对齐模板统计模型参数训练中占有十分重要的地位.本研究针对其参数训练的双语词聚类,在原有的非层次聚类基础上,提出了双语层次聚类的算法;另外,又结合2种算法的思想,提出一种新的混合算法.使用信息熵作为评价标准,结果显示混合算法的聚类效果有3.4%~5.0%的改进.  相似文献   

3.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.  相似文献   

4.
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.  相似文献   

5.
网络对齐是一项极具挑战性的任务,旨在识别不同网络中的等效节点,由于网络的复杂性和监督数据的缺乏,传统方法的计算复杂度高,精度低.近年来,图神经网络(Graph Neural Networks,GNN)在网络对齐算法中得到了越来越多的应用.已有研究表明,与传统方法相比,使用GNN进行网络对齐可以降低计算复杂度并提高对齐精度,然而,基于GNN的方法的性能受到训练数据质量和网络规模的限制.为此,提出一种快速鲁棒的无监督网络对齐方法 FAROS,采用在粗图上训练的GNN模型进行网络对齐.使用粗图进行GNN训练的优点:(1)显著减少训练数据,最大限度地减少GNN反向传播过程中必须更新的权重参数,减少训练时间;(2)缓解数据噪声,能提取网络最重要的结构特征,便于GNN获得更鲁棒的嵌入向量.在训练过程中,FAROS通过引入基于伪锚节点对的自监督学习来提高对齐精度.在真实数据集上的实验结果验证了FAROS算法的有效性,其在保持较好精度的同时,比同类方法快几个数量级.  相似文献   

6.
针对汉-越双语因语言特点差异较大而导致难以实现词语自动对齐的问题,提出了一种基于深层神经网络(deep neural network,DNN)的汉-越双语词语对齐方法。该方法先将汉-越双语词语转化成词向量,作为DNN模型的输入,再通过调整和扩展HMM模型,并融入上下文信息,构建DNN-HMM词语对齐模型。实验以HMM模型和IBM4模型为基础模型,通过大规模的汉-越双语词语对齐任务表明,该方法的准确率、召回率较两个基础模型都有明显的提高,而词语对齐错误率大大降低。  相似文献   

7.
文中提出一种离散和连续混合属性的复杂信息系统增量式属性约简算法.首先,将粒计算模型中的知识粒度在混合型信息系统下进行推广,提出了邻域知识粒度,并构造出基于邻域知识粒度的非增量式属性约简算法,然后在混合型信息系统下研究了邻域知识粒度随对象增加时的增量式计算,理论证明了该计算方式的高效性,最后提出了基于邻域知识粒度的混合信息系统增量式属性约简算法.UCI数据集的实验结果表明,所提出的算法在混合型信息系统中具有很高的增量式属性约简性能.  相似文献   

8.
针对EM算法图像复原质量有限的问题,提出了一种新的使用小渡分解的图像复原EM方法.该方法使用正交小波变换将降质模型分解成更小的子带降质模型,解决了用EM算法估计子带模糊算子前各子带模型间的耦合问题,从而提高了EM算法对图像复原的质量.  相似文献   

9.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器...  相似文献   

10.
依据背景知识,选择行车数据序列在隧道附近所特有的形态,作为该路段的特征点,进行序列的对齐.给定一组未对齐的序列,使用期望最大化(EM)算法进行对齐:在E步算出标准序列,在M步对齐序列.在对齐序列时,采用了基于形态的相似性度量找出待对齐序列与标准序列的最佳特征点匹配方案.本策略成功用于福泉高速行车数据的对齐.  相似文献   

11.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

12.
一种SVM增量学习算法   总被引:13,自引:6,他引:13  
分析了SVM理论中SV(支持向量)集的特点,给出一种SVM增量学习算法,通过在增量学习中使用SV集与训练样本集的分类等价性,使得新的增量训练无需在整个训练样本空间进行,理论分析和实验结果表明,该算法能然保证分类精度的同时有效地提高训练速度。  相似文献   

13.
增量决策树算法及复杂度分析   总被引:5,自引:1,他引:5  
介绍了增量决策树算法的基本原理,并从实例费用和信息熵费用两个角度出发,对增量决策树算法的复杂度进行分析.通过实例说明,增量决策树算法能够构造出与ID3算法形态基本相同的决策树.  相似文献   

14.
机器翻译自动评价中领域知识复述抽取研究   总被引:2,自引:0,他引:2  
针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特定领域训练语料,然后在训练语料中利用Markov网络模型,抽取特定领域复述表,最后将此复述表应用在机器译文自动评价中,以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明,利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。  相似文献   

15.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

16.
基于支持向量机的增量学习算法   总被引:1,自引:0,他引:1  
通过对支持向量机KKT条件和样本间关系的研究,分析了新增样本加入训练集后支持向量的变化情况,提出一种改进的Upper Limiton Increment增量学习算法.该算法按照KKT条件将对应的样本分为3类:位于分类器间隔外,记为RIG;位于分类间隔上,记为MAR;位于分类间隔内,记为ERR.并在每次训练后保存ERR集,将其与下一个增量样本合并进行下一次训练.实验证明了该算法的可行性和有效性.  相似文献   

17.
针对基于短语的统计机器翻译使用有限的语义知识, 导致长距离的动宾短语对翻译质量不高的问题, 提出基于动词选择偏向性的翻译模型, 引入动词对宾语的语义约束信息, 为动词找到合适的宾语翻译。首先使用条件概率方法, 训练动词对宾语的选择偏向性, 然后将选择偏向性作为一个新特征, 集成到基于短语的翻译系统中。在大规模测试数据集上完成汉语到英语的翻译, 实验结果表明, 基于选择偏向性的翻译模型能够很好地捕获长距离的语义依赖关系, 从而提高译文质量。  相似文献   

18.
采用对偶四元数将捷联惯性导航系统坐标系间的转动和平移统一考虑,以降低初始对准的模型复杂度和计算复杂性.给出了对偶四元数捷联惯性导航系统初始对准过程的粗对准模型,在此基础上,分别获得了基于加性和乘性对偶四元数误差的精对准模型.以航向角估计为例进行仿真分析,结果表明,采用该方法的收敛速度比传统方法加快了约40%,对准精度提高约0.01°.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号