首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题, 在基于短语的统计机器翻译系统中, 通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作, 生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上, 与基线系统相比, 该方法在多个测试集上明显提高了翻译系统的翻译质量, 在部分测试集上BLEU 值可提高1%左右。  相似文献   

2.
介绍了机器翻译方法和统计翻译模型,利用国际开源软件构建了一个基于短语的蒙汉机器翻译系统.初步试验结果表明,基于短语翻译方法的蒙汉机器翻译系统具有较好的翻译效果.  相似文献   

3.
机器翻译属于人工智能中的一个领域,在现代工业技术中的地位越来越重要.但机器翻译中通常会遇到的歧义问题大大影响了机器对自然语言的理解.使机器翻译的难度加大,译文可读性极差.本文主要讨论机器翻译中存在的歧义问题,以及基于词汇和句法的处理歧义问题的常用方法.  相似文献   

4.
<正>确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义信息等。该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测。首先以浅层文本特征进行韵律短语识别,然后在此基础上加入句法依存深层文本特征进行模型构建。实验结果表明:加入句法依存特征后,韵律短语预测精确率提高了13.3%,召回率提高了14.69%,F值提高了14.1%。  相似文献   

5.
针对日汉机器翻译问题,提出一种新的独立于具体机器翻译算法的两层翻译架构。第一层优先利用信息检索和双语语料实现翻译记忆;第二层充分利用日语的自然形态特性,在句法匹配和词汇记忆基础上支撑高级翻译。该架构的效力依赖于大规模日汉语料资源和高效的句法匹配算法。网络语言大数据爆发在一定程度上缓解了日汉语料资源的匮乏,而平假名符号子系统表示的句法框架显式标记可以支持高效句法匹配算法的实现。实验结果表明把日语自然形态特性融入日汉机器翻译,能够创新翻译架构、扩充语料规模、降低训练开销。  相似文献   

6.
针对基于短语的统计机器翻译使用有限的语义知识, 导致长距离的动宾短语对翻译质量不高的问题, 提出基于动词选择偏向性的翻译模型, 引入动词对宾语的语义约束信息, 为动词找到合适的宾语翻译。首先使用条件概率方法, 训练动词对宾语的选择偏向性, 然后将选择偏向性作为一个新特征, 集成到基于短语的翻译系统中。在大规模测试数据集上完成汉语到英语的翻译, 实验结果表明, 基于选择偏向性的翻译模型能够很好地捕获长距离的语义依赖关系, 从而提高译文质量。  相似文献   

7.
提出一种基于翻译日志的统计机器翻译模型的剪枝方法。该方法利用翻译规则在翻译日志中的命中频数对机器翻译规则进行过滤, 保留当前机器翻译模型所需的最小规则表。实验表明, 该方法能够在仅保留原有模型1%~3%翻译规则的前提下达到原有模型的翻译效果。  相似文献   

8.
首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征, 即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率, 分析其对错误检测性能的影响; 然后, 将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合, 利用最大熵分类器预测翻译错误, 并在汉英NIST数据集上进行实验验证和比较。实验结果表明, 不同的单词后验概率对分类错误率的影响是显著的, 并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率, 提高译文错误预测性能。  相似文献   

9.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   

10.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

11.
机器翻译涉及的技术很多,主要工作有两部分:第一部分给出一种汉英机器翻译中的短语处理方法,包括短语切分和短语查找;第二部分研究了汉英机器翻译中译文生成的一些问题.  相似文献   

12.
抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。  相似文献   

13.
简要分析了现有机器翻译中存在的问题,介绍了统计学机器翻译体系中依赖型句法结构的运用,以及如何实现两种语言的语法剖析等。并且指出运用依赖型句法结构的翻译模式中的解码过程所面临的挑战,提出相应对策。还指出了将机器翻译与依赖型句法结构树相结合的研究中需要注意的方面以及有待进一步发展的方面。  相似文献   

14.
传统藏文文法格在功能上真实地反映了藏文句法结构,藏文中的属格表示人或事物之间的限制或领属、修饰、复指、总别和依存关系等,可作前置定语.藏文中名词短语是指语法功能相当于名词的短语,一般可以在句子中充当主语、宾语、定语等.文章采用语料实证和结构分析的方法,从句法功能的角度对属格助词在藏文名词短语中的结构及功能进行分析研究,从句法结构上总结和归纳了其结构特征,为多语言句法结构树库和框架语义构建提供最基本的语法信息.  相似文献   

15.
使用源语言复述知识改善统计机器翻译性能   总被引:2,自引:0,他引:2  
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。  相似文献   

16.
文章以藏语动词短语的结构类型、语法规则、语义分析等内容为主,建立了一个以结构和句法特征为主,兼顾语法和语义信息的藏语动词短语信息库,运用语料分析软件对提取的9962个藏语动词短语进行了计量分析,通过分类、比较、分析,得到了一个较为完整的短语结构功能分类体系.  相似文献   

17.
为解决基于实例的甲骨文机器翻译缺乏深层次语义分析的问题,引入了本体技术.采用实例和本体相结合的办法,分阶段实现甲骨文语句的机器翻译.基于实例的方法用于仅需浅层语义分析的句子,基于本体的方法用于需深层语义分析的句子.在对比分析甲骨文与现代汉语之间的内在联系基础上,建立了甲骨文知识本体,为机器翻译的词典和语义提供概念及其层次网络,解决甲骨文同义词、兼类词及词义消歧问题.实验结果表明:对常规的简单甲骨文语句,基于实例的机器翻译结果较好;对复杂的甲骨文语句,需要利用基于本体的机器翻译,其结果也基本满足研究需求.  相似文献   

18.
本文提出一个完整的系统将多声部乐谱原文转换成可编辑的乐谱文本。系统首先在乐符检测阶段将谱段划分为个别对象,在识别阶段用非均匀密度特征和句法规则将这些对象识别出来,并将其登记,构成语义编码,然后由乐谱恢复模块将其恢复成乐谱原文。系统中使用的句法规则可根据乐谱类型重新定义或修改,具有很强的灵活性和适应性。系统对离散乐符的识别率达98%以上,对谱段的识别率为93%。  相似文献   

19.
回顾基于规则的机器翻译中的文本处理、文本分析、词典构成、词典查询和语义排歧技术,指出基于规则的机器翻译因为词义选择、层次切分、特殊句型结构等固有难题难以圆满解决,只有发展新的翻译技术,才能使机器翻译质量达到实用水平.  相似文献   

20.
回顾基于规则的机器翻译中的文本处理、文本分析、词典构成、词典查询和语义排歧技术,指出基于规则的机器翻译因为词义选择、层次切分、特殊句型结构等固有难题难以圆满解决,只有发展新的翻译技术,才能使机器翻译质量达到实用水平.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号