首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
机器翻译是人工智能领域的热点问题。在实际应用过程中,平行语料库的收集和构建直接影响机器翻译的效果。随着我国数字业务的快速发展,以及“一带一路”背景下国际交流频率的不断增加,中哈互译需求凸显。针对汉哈文机器翻译个性化的技术要求,结合哈萨克语的特点,本文提出一种基于信息内容比例的段落对齐方法,开发设计了辅助工具软件Corpus,利用该工具对汉-哈文之间的段落对齐进行可视化,并利用段落对齐方法进行数据的编排存储。实验结果表明,基于本文提出的方法,汉-哈平行篇章与段落手工对齐正确率达到94.5%,95.2%;自动对齐正确率达到87.5%,89.3%,能够提升平行文本的对齐质量,成功建立篇章与段落对齐的汉-哈平行语料库。  相似文献   

2.
可比语料库由于其自身优势和广泛用途逐渐成为语料库研究的热点方向之一,而目前国内俄汉可比语料库相关研究未见学者涉及。通过梳理国内外相关研究成果,设计了一种基于维基百科构建俄汉可比语料库的思路和方法,研制了语料自动获取系统,以篇章对齐为基础建立了俄汉可比语料库,语料字(词)总数达到了百万级,最后利用跨语言相似度计算的方法对俄汉语料的可比度进行计算。计算结果表明该方法能够有效获取可比度较高的俄汉语料,所构建的语料库可被用于俄汉翻译、话语分析及计算语言学研究中。  相似文献   

3.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

4.
以《尼山萨满》为例,利用语料库的技术手段保护和传承少数民族文化典籍。构建了一个满族典籍的平行语料库系统原型,重点研究了该平行语料库的语料对齐方法,分别研究了两种段落对齐方法和三种句子对齐方法,并对各个方法进行了性能评价,最终选出最适合该平行语料库的对齐方法。测试结果表明,最终选取的对齐方法满足构建满族典籍平行语料库的需求,从而为其他同类型的少数民族语料库构建提供更多的参考。  相似文献   

5.
介绍了藏汉句子自动对齐系统及其对齐方法,详细地分析了基于平行语料的藏汉句子自动对齐问题,提出了利用大规模高效藏汉双语词典进行句子局部对齐的策略,并做了验证.  相似文献   

6.
汉文-维吾尔文句子对齐模型的XML标记规范   总被引:1,自引:0,他引:1  
近些年来,在语言信息处理研发、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来.在双语语料库中,不仅要描述双语文本在句子一级的对齐信息,还要详细描述收入语料库中的双语文本的所有者、领域、时间等方面的属性信息.为便于数据交换和共享,所有语料文本均采用XML编码方式来描述信息.详细阐述了构建的汉文-维吾尔文平行语料库的对齐句子和一些属性信息的XML标记规范和XML标记算法的设计方法.  相似文献   

7.
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。  相似文献   

8.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

9.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

10.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.  相似文献   

11.
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。  相似文献   

12.
探讨如何将语料库技术应用于典籍英译。具体步骤为:利用单语语料库统计信息辅助双语对齐,借助Wordsmith5.0统计的词表和Winalign7.0的术语表功能,探讨如何利用机器辅助提取锚点词对及多层级锚点词对对齐古汉英茶文化平行双语库。锚点词对筛选步骤如下:由Wordsmith5.0自动生成《茶经》英汉词表;基于一次频词的概念逆向分析词表并选出具备锚点词1∶1对应关系的部分,将其导入Winalign对齐并输出锚点词对。锚点词对的选取由机器辅助完成,对齐效率大幅提升,可弥补以往手工提取的不足。用Antconc的Collocates功能批量提取茶诗尾韵,辅助其英译,通过检索标点自动提取末尾字并人工校验提取尾韵词。实验证明语料库技术在典籍英译领域切实可行且效果显著。  相似文献   

13.
针对当前神经机器翻译在捕捉复杂句内小句间的语义和结构关系方面存在不足,导致复杂句长文本翻译的篇章连贯性不佳的问题,提出一种融合小句对齐知识的汉英神经机器翻译方法.首先提出手工和自动相结合的标注方案,构建大规模小句对齐的汉英平行语料库,为模型训练提供丰富的小句级别的汉英双语对齐知识;然后设计一种基于小句对齐学习的神经机器...  相似文献   

14.
在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了2种新的指标,即双语主题相似度(bilingual topic similarity, BTS)和双语对齐相似度(bilingual alignment similarity, BAS),用于评价辅助分布对齐的效果。相比传统的对齐模型MCTA, TAM在跨语言主题对齐任务中双语对齐相似度提升了约1.5%,在跨领域主题对齐任务中F1值提升了约10%。研究结果对于改进跨语言和跨领域信息处理具有重要意义。  相似文献   

15.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究.  相似文献   

16.
徐春 《科技信息》2011,(17):I0104-I0105
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们清楚的认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。文章介绍了一个大规模汉英双语平行语料库的构建系统,利用互联网上存在的海量多语言文本资源,通过网页的内容分析和链接分析,实现了一个双语语料挖掘的自动获取系统,包括其总体规划、实施模型和流程细节。目的是通过学习国内外资料。最终建设一个基于互联网的平行语料库自动构建系统。  相似文献   

17.
以汉语为研究对象, 提出构建大规模高质量汉语复述平行语料的方法。基于翻译引擎进行复述数据增强, 将英语复述平行语料迁移到汉语中, 同时人工构建汉语复述评测数据集。基于构建的汉语复述数据, 在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性。首先基于复述语料生成复述识别数据集, 预训练基于注意力机制的神经网络句子匹配模型, 训练模型捕获复述信息, 然后将预训练的模型用于自然语言推理任务, 改进其性能。在自然语言推理公开数据集上的评测结果表明, 所构建的复述语料可有效地应用在复述识别任务中, 模型可以学习复述知识。应用在自然语言推理任务中时, 复述知识能有效地提升自然语言推理模型的精度, 从而验证了复述知识对下游语义理解任务的有效性。所提出的复述语料构建方法不依赖语种, 可为其他语言和领域提供更多的训练数据, 生成高质量的复述数据, 改进其他任务的性能。  相似文献   

18.
在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标语言,最后基于指针网络将映射的目标语言关键词融入到摘要生成过程中.在构建的汉越跨语言摘要数据集上的实验结果表明,相比于直接的端到端的方法,融入关键词概率映射信息可以有效地提升低资源跨语言摘要的质量.  相似文献   

19.
语言的学习研究,离不开对语料的分析.恰当选择教学的语料,能够使现代汉语教学深入浅出、活泼生动,从而调动学生的学习积极性.教学语料的选取要注重典型性、趣味性和鲜活性.作为教师,需要养成关注和收集语料的习惯,建立属于自己的教学语料库,以便在教学中灵活自如地运用.  相似文献   

20.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号