首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

2.
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。  相似文献   

3.
基于深度学习的神经机器翻译已在多个语言对上显著超过传统的统计机器翻译,成为当前的主流机器翻译技术。该文从词粒度层面出发,对国际上具有影响力的6种神经机器翻译方法在维吾尔语-汉语翻译任务上进行了深入分析和比较,这6种方法分别是基于注意力机制(GroundHog),词表扩大(LV-groundhog),源语言和目标语言采用子词(subword-nmt)、字符与词混合(nmt.hybrid)、子词与字符(dl4mt-cdec)以及完全字符(dl4mt-c2c)方法。实验结果表明:源语言采用子词、目标语言采用字符的方法(dl4mtcdec)在维吾尔语-汉语神经机器翻译任务上性能最佳。该文不仅是首次将神经机器翻译方法应用到维吾尔语-汉语机器翻译任务上,也是首次将不同的神经机器翻译方法在同一语料库上进行了对比分析。该研究对维吾尔语-汉语机器翻译任务和神经机器翻译的进一步研究工作都具有重要的参考意义。  相似文献   

4.
描述了基于短语统计的汉语-维吾尔语(简称汉维)机器翻译解码器。搜索算法的效率是解码的关键,基于短语统计的搜索算法在汉维机器翻译中是首次使用,并构建翻译备选项列表,基本实现了汉维机器翻译的解码器研究设计。分析对比实验结果,证明该搜索算法的有效性。  相似文献   

5.
基于目标语统计的译文选择的研究   总被引:1,自引:0,他引:1  
译文选择是词义消歧研究在机器翻译中的分支.本文介绍了基于目标语统计的译文选择的原理,并以英汉机器翻译中汉语译文的选择为例,详细讨论了基于目标语统计的方法的实现.通过对词典译文的处理得到统计数据.为适应实用化系统的要求,统计数据进行压缩,并采用特殊的检索算法.提出了多项式级的逐步渗透译文选择算法,实验结果表明,该算法可以将译文选择正确率提高10%以上.  相似文献   

6.
作为模糊数列理想统计收敛的推广,基于Orlicz函数和非降数列λ={λ_m},提出和讨论了模糊数列的几乎理想λ-统计收敛和强几乎理想λ-收敛。同时,研究了模糊数列几乎理想λ-统计收敛和强几乎理想λ-收敛的相关性质及两种收敛之间的关系,如果模糊数列x={x_k}强几乎理想λ-收敛,那么,几乎理想λ-统计收敛。  相似文献   

7.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

8.
数据平滑技术主要是用来解决统计语言模型在实际应用中数据稀疏问题,它是语言建模的核心技术,Katz平滑方法是应用最广泛的方法之一.本文对Katz平滑算法作了改进,使之应用于trigger对的平滑,并在汉语-蒙古语机器翻译系统实现了该算法,实验结果表明该技术可以提高翻译效果.  相似文献   

9.
为优化基于格值逻辑的α-归结原理,将删除策略应用于α-语义归结方法,研究了基于格值逻辑的带有删除策略的α-语义归结方法.首先给出了带有删除策略的α-语义归结的完备性;接着,给出了带有删除策略的α-语义归结算法,并证明了该算法的可靠性和完备性;通过实例说明了该算法的可行性.  相似文献   

10.
汉语单句谓语中心词识别知识的获取及应用   总被引:13,自引:0,他引:13  
在基于实例的机器翻译(EBMT)的语句相似度研究中,确定谓语中心词以把握句子的整体结构是至关重要的。以标注了谓语中心词的3000句汉语单句作为训练集,将候选词本身的语法属性以及上下文环境作为该候选词的归类特征,通过建立统计决策树模型获取谓语中心词的识别知识。应用统计决策树进行了谓语中心词的自动识别,并获得了较为满意的测试结果。  相似文献   

11.
一种算子模糊逻辑系统   总被引:3,自引:0,他引:3  
建立了一种带模糊文字以及模糊算子的算子模糊逻辑系统,讨论了该逻辑系统逻辑性质.在算子模糊逻辑系统中,定义了λ-归结,证明了λ-归结的相容性以及基于λ-归结的归结推理的完备性,为基于逻辑的不确定性推理提供了新的思路与方法.  相似文献   

12.
中介谓词逻辑系统MF的无穷值语义解释,反映了反对对立概念之间的可变过程,并且该解释不同于MF的其他任何语义解释。但在该无穷值语义解释下,"当A fuz时~A真"这种情况并未得到反映。在此基础上,进一步研究得到了中介谓词逻辑系统MF一种真值域为[0,1-λ)∪(1-λ,λ)∪(λ,1](λ∈(0.5,1))的无穷值语义解释,重新定义了MF的文字,给出了MF中λ-互补文字及弱无中介集的定义,提出了一种新的MF的λ-归结原理,并证明了其可靠性和完备性。在改进的MF的无穷值语义解释下,不仅较好的表达了"当A fuz时~A真"的情形,而且其λ值的确定,可根据一定的实例知识计算出来,具有客观性。该解释进一步表明用中介逻辑作为模糊知识的表示与推理的工具是可行的。  相似文献   

13.
汉语的歧义分布在语言的不同层面上,从词形变化到句子结构都存在歧义.针对汉英机器翻译不同阶段遇到的歧义问题,采用了隐马尔柯夫模型和贝叶斯分类法来进行排歧.实验表明:基于统计的多步消歧策略在汉英机器翻译系统中具有较高的排歧准确率.  相似文献   

14.
利用β-统计收敛说明统计收敛、A-统计收敛、缺项统计收敛、λ-统计收敛及强统计收敛分别是β-统计收敛的特殊形式,并分别给予测度刻画.考察β-统计收敛与一般序列收敛之间的关系,得到统计收敛、λ-统计收敛及强统计收敛与收敛之间的等价描述.  相似文献   

15.
自然语言的逻辑语义分析和汉语信息处理是当今众多学科共同关注的热门话题。将现代汉语中的形容词性谓语句分为光杆形容词谓语句和复杂形容词谓语句两种,并利用转换生成语法、现代谓词逻辑、类型论、范畴论、广义量词理论、集合论和λ-转换等语义理论分别对各类句子作了较详细的分析,以期有助于信息处理的相关研究。  相似文献   

16.
针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题,提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态,然后从英语端对被动和可能语态进一步分类,抽取双语特征训练最大熵规则分类模型,将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明,该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译,提升被动语态和可能语态句子的翻译质量。  相似文献   

17.
本文报道β-(5-R-苯基-2-呋喃基)乙烯基-3H-吲哚盐的紫外可见吸收光谱数据。对各谱带归属进行了研究,确认λ~1,λ~2是分子局部共轭结构部分引起的,λ~3是分子整体共轭的表征,λ~4为聚集态谱带並求得聚集数为2,还讨论了R对λ~3的影响。  相似文献   

18.
向量值有理插值函数的递推算法   总被引:4,自引:0,他引:4  
针对向量连分式序列Rn(x)=bo x-xo/b1 … x-xn-x/bn,n=0,1,2,…利用向量的Samelson逆,建立了类似于标量逐步有理插值算法的向量有理函数插值的逐步递推算法:Pλ=dλ,λPλ-1 ∑λ-1 i=1wi^λdλ-i,λPλ-i-1 (x-xλ-1)^2Pλ-2 ωλ^λBλ,Qλ=dλ,λQλ-1 ∑λ-1i=1wi^λdλ-i,λQλ-i-1 (x-xλ-1)^2Qλ-2,λ=2,3,…,n(*) 其中{P0=b0,Q0=1;{P1=d1,1P0 ω1^1b1,Q1=d1,1Q0,Rλ(x)=Pλ(x)/Qλ(x)(λ=0,1,…,n)是满足插值条件Rλ(xi))=Rλ(xi)Qλ(xi)=Vi,i=0,1,…,λ 的向量有理函数,与向量与理函数插值的传统算法相比,上述算法的主要优点是具有承袭性;当需要增加一个插值条件Rn 1(xn-1)=Vn 1时,原来已经得到的向量有理插值函数序列P0/Q0,P1/Q1,…,Pn/Qn仍然保留,只要按(*)式再计算一个Pn 1(x),Qn 1(x)即可。在此基础上,将上述算法推广到二元情形,数值实例验证了所给算法的有效性。  相似文献   

19.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

20.
描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号