首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%.  相似文献   

2.
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。  相似文献   

3.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究.  相似文献   

4.
在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了2种新的指标,即双语主题相似度(bilingual topic similarity, BTS)和双语对齐相似度(bilingual alignment similarity, BAS),用于评价辅助分布对齐的效果。相比传统的对齐模型MCTA, TAM在跨语言主题对齐任务中双语对齐相似度提升了约1.5%,在跨领域主题对齐任务中F1值提升了约10%。研究结果对于改进跨语言和跨领域信息处理具有重要意义。  相似文献   

5.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

6.
围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练.在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法,以替换通常所用的batch EM算法,实现增量式训练.实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量.  相似文献   

7.
机器翻译是人工智能领域的热点问题。在实际应用过程中,平行语料库的收集和构建直接影响机器翻译的效果。随着我国数字业务的快速发展,以及“一带一路”背景下国际交流频率的不断增加,中哈互译需求凸显。针对汉哈文机器翻译个性化的技术要求,结合哈萨克语的特点,本文提出一种基于信息内容比例的段落对齐方法,开发设计了辅助工具软件Corpus,利用该工具对汉-哈文之间的段落对齐进行可视化,并利用段落对齐方法进行数据的编排存储。实验结果表明,基于本文提出的方法,汉-哈平行篇章与段落手工对齐正确率达到94.5%,95.2%;自动对齐正确率达到87.5%,89.3%,能够提升平行文本的对齐质量,成功建立篇章与段落对齐的汉-哈平行语料库。  相似文献   

8.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.  相似文献   

9.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。  相似文献   

10.
为了解决汉英平行语料中带噪声的问题,通过设计规则方法、统计方法(包括Zipporah系统、词对齐模型、语言模型)以及神经网络方法(包括翻译模型和双语预训练模型),从不同侧重点对汉英句对平行程度进行度量.结果表明翻译模型和双语预训练模型在过滤优质平行语料任务上有良好表现.最后,对于表现优异的方法,按照加法和乘法两种方式进...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号