首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心子节点过滤表,依据该表将短语结构的CTB转换为依存结构树库.在CTB中随机抽取200句语料,转换正确率达到了99.50%.基于该转换得到的依存结构树库可以进一步进行中文依存关系解析的研究.  相似文献   

2.
现有分词工具应用于医学文本,出错率高,并且现有分词工具所参照的词性标注规范集,用于医学文本标注,也明显表现不足。文章基于医疗卫生文本研究依存句法,旨在发现医疗卫生文本词特征和句法特征,构建一定规模依存句法树库,为提高医疗卫生领域汉维机器翻译质量提供优质数据资源。重点研究了语义依存,不仅全面掌握词性标注特征,提出建议;而且着重发现医疗卫生文本数据独特的词间关系,标注并保存,获得医疗卫生领域语义依存树库。同时,总结的特殊句法规则,为下一步实现自动化后处理提供依据。  相似文献   

3.
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu.  相似文献   

4.
提出了一种基于柬汉双语词对齐语料构建柬埔寨语依存树库的方法。首先构建柬汉词对齐语料库,在该过程中不仅使用GIZA++模型进行词对齐,还利用词典模糊匹配和词向量相似性比较的方法进行双语词对齐语料库的构建;其次根据哈工大LTP平台构建中文依存树库;最后结合柬汉词对齐语料库和中文依存树库通过映射的方式构建柬语依存树库,再经过人工调整得到最终的柬语依存树库。实验表明,该方法简化了人工标注柬埔寨语句子依存关系的过程,减少了昂贵的人工标注工作,有效地提高了依存树库的构建效率。  相似文献   

5.
文本情绪分类是自然语言处理研究中的一项基本任务.目前,已有的文本情绪分类研究大都在单语语料上进行,存在已标注样本不足、分类文本较短、信息量少等问题.为了解决上述问题,提出了一种基于双语信息和神经网络模型的情绪分类方法.首先,利用机器翻译工具对源语料进行翻译得到翻译语料;其次,将对应语言的语料进行合并,得到两组不同语言的语料;最后,将文本分别使用源语言和翻译语言进行特征表示,建立双通道长短期记忆(long short-term memory,LSTM)网络模型融合两组特征,并构建情绪分类器.实验结果表明该方法能够稳定提升文本情绪分类的性能.  相似文献   

6.
针对电气工程领域英汉机器翻译中平行语料稀缺的问题,在使用通用语料训练翻译模型的基础上,提出了一种融合领域术语信息的嵌入层参数初始化方法.首先,对文本进行分词预处理,将术语词划分为一个最小单元;然后,利用Glove和Word2vec在不同单语语料上训练得到两种词向量,并分别初始化嵌入层参数中常用词和术语词的向量表示;最后...  相似文献   

7.
依存语法又称"从属关系语法",研究句子各构成成分之间的支配和从属关系。依存结构是指句子中词与词之间的句法结构关系,该结构以树状结构进行描述,被称之为依存结构树库。文章以依存语法的理论框架作为藏语树库构建的理论指导,充分借鉴依存语法的思想精髓,结合藏语语法体系,设立出符合藏语语法体系的句法和语义标注关系体系,设计了判别式的句法分析算法,从而构建了多维视窗的藏语依存树库。具体分析时,首先,对依存语法的由来、定义、依存关系的适用性等背景知识做了简要的阐释;其次,在藏语句子的筛选、藏语依存结构的形式化模型、藏语依存的骨架结构以及藏语依存树的多维关系等方面进行了研究和分析。  相似文献   

8.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

9.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

10.
为提高汉语和维吾尔语医学领域机器翻译质量,解决人工提取和翻译大量医学术语耗时费力的问题,提出基于词向量表示的双语术语抽取方法,并与传统统计短语对齐抽取进行对比.首先,自建45216句汉语医疗语料,人工翻译获得23996句维语语料,人工采集汉语医学词汇65394条,翻译获得31421条维语术语,对汉语语料分词,对维语语料形态切分,获得实验数据;其次,使用词向量方法,设计了基于词向量表示的双语术语抽取实验,准确率为25.12%;并将传统统计短语对齐抽取技术应用于汉维医疗平行语料,准确率为27.28%;实验结果表明,新方法更需要大量平行语料支持,但是两种方法都有助于提高汉维医学领域机器翻译质量,使提取和翻译大量医学术语自动化.  相似文献   

11.
基于连接文法的双语E-Chunk获取方法   总被引:2,自引:0,他引:2  
提出了一种面向机器翻译领域的扩展Chunk概念·EChunk是在Chunk概念基础上基于语义惟一性的一种扩展形式,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语EChunk的识别技术和双语EChunk获取方法·双语EChunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·  相似文献   

12.
径流中长期预报级别特征值特征展开模糊推理方法   总被引:3,自引:0,他引:3  
针对现有径流中长期预报模糊推理方法在实际应用中存在的问题,提出了径流中长期预报级别特征值特征展开模糊推理方法,使原有的模糊推理法得到改进,从而增强了模糊推理预报方法在径流中长期预报以及其他实际工程预报中的应用效果;并将新方法应用于大伙房水库年径流预报中,实例应用研究表明应用该方法预报中长期径流可以得到较好的预报结果.  相似文献   

13.
从能指和所指的角度看隐喻的符号学翻译   总被引:1,自引:0,他引:1  
为了更好地实现英汉语之间隐喻的翻译,特选取符号学的符号概念来研究不同来源的隐喻的翻译.具体从能指和所指两个方面来分析不同层面,包括字词、句子和语篇隐喻的翻译,提出了几种从符号的角度进行隐喻翻译的具体翻译方法.研究发现,从符号的角度能更准确更恰当地实现英汉语隐喻的翻译,希望能给符号学与语言翻译实践进一步的结合带来一点借鉴和启示.  相似文献   

14.
比较汉语"但是"、"却"和英语"but"的语义异同,探讨了它们互译时的制约条件及英汉两种语言把它们分别归于不同词类系统的原因所在,指出汉语语法论著在解释汉语转折连词以及转折连词和副词连用时存在的问题,讨论了汉语转折词用与不用以及用什么转折词所表现出的语气强弱的差异和英语的互译关系.  相似文献   

15.
论Nationalities University的可接受性   总被引:2,自引:0,他引:2  
“民族大学”英语译文格式存在争论,在实际运用中也存在UFN和NU两中译文格式。基于对短语“民族大学”的汉语语义及其英译的语法分析,结合对同类校名译文的适用性调查,从语义、语法和文化翻译的角度佐以译例,对Nationalities University译文的可接受性进行了充分的验证。  相似文献   

16.
本文主要从如何分句子的角度 ,探讨英汉翻译中一些技巧问题 ,把英语中含有由单词、词组、从句或句子等所构成的语结拆成短句 (从句、分句或独立句 ) ,译成带有主谓结构的中文句子。  相似文献   

17.
围绕翻译模型构建流程的瓶颈——词语对齐,着手翻译模型的增量式训练.在基于无监督学习的词语对齐模型的基础上,提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法,以替换通常所用的batch EM算法,实现增量式训练.实验表明,所提出的方法既高效又能保证词语对齐质量和机器翻译质量.  相似文献   

18.
从汉语树库建设和应用角度分析了汉语语法研究数字化现状,指出现有的短语树库和依存树库均缺乏有效的句式结构信息.以黎氏语法"图解法"为原型,改造设计了一套可用于计算机实现的句式结构数字化图解方案,介绍了该图解系统在对外汉语教学中的2项应用.最后结合图解树库的标注实践谈了对句本位语法关于结构层次和"活看法"的理解.  相似文献   

19.
“离合词”是汉语中介于词与短语之间一种特殊的语法现象。从语法性质来说,它属于词;它最早出现于宋代,类化作用、认知方式、语体色彩、经济原则等都与离合词的产生和形成有密切联系。  相似文献   

20.
安徽颍上方言中“搁”字的语法特色   总被引:1,自引:0,他引:1  
主要分析了"搁"字在颍上方言中的特殊用法。通过与普通话中"在"字结构的比较,彰显出颍上方言中"搁"字结构在语义涵盖、语法环境等方面的特色,并尝试探讨"搁"字结构不能引进动作终结点的原因。这对于挖掘颍上方言语法的地域特色,了解其语言发展的历史踪迹是很有价值的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号