首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
阐述了汉文-维吾尔文双语对齐语料库构建的一些技巧,通过实践提出了建设汉文-维吾尔文双语对齐语料库的方法.语料库收集汉文-维吾尔文双语句子对齐语1000句左右,可进行汉文和维吾尔文关键词检索,查询语料库中的汉文-维吾尔文对译句子,进行汉文-维吾尔文句子对比分析研究.  相似文献   

2.
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.  相似文献   

3.
传统的基于长度的汉英双语句子对齐算法大都以字节作为句子长度的计算单位.提出了以句子所含动词、名词、形容词、实词、字节及全部词语总数等6种单位作为句子长度的计算方法进行汉英句子对齐研究.针对传统基于长度对齐算法消耗内存大、效率低的特点,提出了不受文本大小限制的分组对齐算法.实验结果表明,汉英句子对齐以词语作为长度计算单位的算法性能较高,准确率达到99.01%,召回率达到99.50%.  相似文献   

4.
分段对齐在双语句子对齐的过程中发挥着重要的作用,文章提出了一种新的基于锚点句对的分段对齐方法,并把它和传统的基于回车符的分段对齐方法相结合,形成了一种多层次的分段对齐方法.  相似文献   

5.
介绍了藏汉句子自动对齐系统及其对齐方法,详细地分析了基于平行语料的藏汉句子自动对齐问题,提出了利用大规模高效藏汉双语词典进行句子局部对齐的策略,并做了验证.  相似文献   

6.
基于统计的汉英法律文献亚句子级对齐   总被引:2,自引:0,他引:2  
基于统计的句子对齐是根据双语句子的长度在所有可能的对齐中找出概率最大的一个·提出两种对齐汉英语料的参数计算方法,使对齐模型中的评价函数满足标准正态分布·参数s2的值是对训练语料中的所有点(l1,(l2-cl1)2)进行线性回归分析所得直线的斜率,s2的另一种求法是直接计算方差·实验结果表明汉英法律文献亚句子级对齐的正确率为98 8%,召回率为99 2%·  相似文献   

7.
以《尼山萨满》为例,利用语料库的技术手段保护和传承少数民族文化典籍。构建了一个满族典籍的平行语料库系统原型,重点研究了该平行语料库的语料对齐方法,分别研究了两种段落对齐方法和三种句子对齐方法,并对各个方法进行了性能评价,最终选出最适合该平行语料库的对齐方法。测试结果表明,最终选取的对齐方法满足构建满族典籍平行语料库的需求,从而为其他同类型的少数民族语料库构建提供更多的参考。  相似文献   

8.
纳-汉双语语料库构建及双语语料对齐   总被引:1,自引:0,他引:1  
当前存在着部分纳西语-汉语双语互译文本,利用这些双语互译文本构建大规模的双语语料库,是双语互译文本的深层加工及其双语词典编纂、跨语言信息检索面临的关键问题.提出了一个大规模纳-汉双语语料库的构建方案,包括其总体规划标准制定、实施方案和流程细节.通过组织构建纳-汉双语语料库,实现双语语料库在统计的机器翻译系统中的应用,并实现纳-汉之间的双语对照翻译系统,较好地提高翻译的准确性和可读性,进而推动少数民族语言信息化的发展.  相似文献   

9.
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。  相似文献   

10.
在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了2种新的指标,即双语主题相似度(bilingual topic similarity, BTS)和双语对齐相似度(bilingual alignment similarity, BAS),用于评价辅助分布对齐的效果。相比传统的对齐模型MCTA, TAM在跨语言主题对齐任务中双语对齐相似度提升了约1.5%,在跨领域主题对齐任务中F1值提升了约10%。研究结果对于改进跨语言和跨领域信息处理具有重要意义。  相似文献   

11.
句子相似模型和最相似句子查找算法   总被引:25,自引:0,他引:25  
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小·  相似文献   

12.
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。  相似文献   

13.
介绍了结构化置标语言应用于数据库系统的建立和信息出版的优势,讨论了将结构化置标语言同关系型数据库结合的技术SQml,剖析结构化置标语言同关系型数据库或面向对象型数据库结合的缺点,提出了基于结构化置标语言的数据库系统的定义和模型设计。  相似文献   

14.
通过对英语句子的剖析、归纳、分类,概括出英语句子的根句型,即英语5种基本句型(简单句的5种基本句型外加一些特殊句型),重点指出这几种句型基本涵盖了所有的英语句子,旨在强调其在英语学习中的重要性,帮助英语学习者在英语学习过程中,不断增强根句型概念,正确使用英语句型,使他们能够尽快掌握英语语言的核心内容,以便更好更快地学好英语。  相似文献   

15.
句式的运用突出显示诗与骈文的体制特点:诗语句式一定,骈文参差四六,又或间取三五;二体俱用四六,然<诗>之四言,绝多散语,而骈四为偶,结构整练;诗之六言,声气甘媚,节奏平板,骈文变化结构,取用虚字,化去板滞;骈体四六偶俪,其式错落不一,造语益为灵活.  相似文献   

16.
“领主属宾句”甸子的主语和宾语有比较稳定的领有,隶属关系,主语是领有的一方,宾语是隶属的一方,且句中的述语动词和主语没有直接的语义关系。这种句式分别在20世纪50年代、80年代末以及近年来三度较为广泛引起语法学家的关注,这三个时间段也恰好代表了领主属宾句研究所经历的三个阶段:萌芽阶段、描写阶段和解释阶段。  相似文献   

17.
针对蛋白质多重结构比对需要大量运算的问题,基于渐进式成对结构比对策略,设计了并行化的蛋白质多重结构比对架构及其在网格计算环境下的实现机制.实验结果表明并行算法大大提高了比对效率,减少了比对时间,提高了重用性.该并行蛋白质多重结构比对架构及实现方法可应用于其他的多重结构比对.  相似文献   

18.
现代汉语"给"字句可表达给予义、使役义、处置义和被动义,可与"把"字句、"被/让/叫"字句套合。诸多学者对"给"字句的语法化过程和套合用法进行了一系列探索,取得了不少成果。文章对此进行了归纳和总结,并指出了今后需待研究的一些问题。  相似文献   

19.
运用相对化的方法和起伏度的计算公式,对广州话陈述句的音高进行考察的结果显示:广州话陈述句整个语句的音高是总体下倾的,但是位于语句中间位置的调群和位于调群中间位置的音节,出现了音高浮动的现象。陈述句音高的总体下倾和局部浮动在一定程度上与发音生理机制有关。  相似文献   

20.
句型是从许许多多具体的句子中提取出来的造句型式,它在句子中起到 框架、搭配、呼应、语感等语法作用。目前,句型研究越来越受到学们的重视,句型教学也成为日语教学的一个重要方式。介绍了日语句型研究的历史,论述了句型教学对国内日语教学所起到的积极作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号