首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 265 毫秒
1.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.  相似文献   

2.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究.  相似文献   

3.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

4.
以《尼山萨满》为例,利用语料库的技术手段保护和传承少数民族文化典籍。构建了一个满族典籍的平行语料库系统原型,重点研究了该平行语料库的语料对齐方法,分别研究了两种段落对齐方法和三种句子对齐方法,并对各个方法进行了性能评价,最终选出最适合该平行语料库的对齐方法。测试结果表明,最终选取的对齐方法满足构建满族典籍平行语料库的需求,从而为其他同类型的少数民族语料库构建提供更多的参考。  相似文献   

5.
分段对齐在双语句子对齐的过程中发挥着重要的作用,文章提出了一种新的基于锚点句对的分段对齐方法,并把它和传统的基于回车符的分段对齐方法相结合,形成了一种多层次的分段对齐方法.  相似文献   

6.
汉文-维吾尔文句子对齐模型的XML标记规范   总被引:1,自引:0,他引:1  
近些年来,在语言信息处理研发、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来.在双语语料库中,不仅要描述双语文本在句子一级的对齐信息,还要详细描述收入语料库中的双语文本的所有者、领域、时间等方面的属性信息.为便于数据交换和共享,所有语料文本均采用XML编码方式来描述信息.详细阐述了构建的汉文-维吾尔文平行语料库的对齐句子和一些属性信息的XML标记规范和XML标记算法的设计方法.  相似文献   

7.
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。  相似文献   

8.
张同玲  祁坤钰 《科技信息》2011,(17):191-191,199
本文通过藏语语法知识和藏汉两种语言对句子概念的对比,将藏语单句划分,并进一步进行了细化。其利于藏文校对,信息检索、双语对译、自动分词、搜索引擎等信息技术的不断发展。  相似文献   

9.
统计与规则相结合的藏文句子自动断句方法   总被引:1,自引:0,他引:1  
 藏文句子断句是藏文信息处理领域的难点之一,也是藏汉机器翻译、藏文文本分类等工作的一项重要基础性研究.提出了一种统计与规则相结合的藏文句子自动断句方法以解决藏文标点符号功能的歧义问题,实验结果表明该方法具有比较好的效果,F1值达到98%以上.在规则中首先使用经验的方法,识别出不确定的藏文句子作为候选句子,然后采用基于关联词的复句分析方法进行分句合并形成二次候选句子;最后使用最大熵的方法对二次候选句子进行断句.经验方法和复句分析有效解决了最大熵算法无法触及的语料稀疏和分句问题.  相似文献   

10.
基于统计的汉英法律文献亚句子级对齐   总被引:2,自引:0,他引:2  
基于统计的句子对齐是根据双语句子的长度在所有可能的对齐中找出概率最大的一个·提出两种对齐汉英语料的参数计算方法,使对齐模型中的评价函数满足标准正态分布·参数s2的值是对训练语料中的所有点(l1,(l2-cl1)2)进行线性回归分析所得直线的斜率,s2的另一种求法是直接计算方差·实验结果表明汉英法律文献亚句子级对齐的正确率为98 8%,召回率为99 2%·  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号