首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题,提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比,该方法只需进行源语言端的句法结构分析,可以大大降低构筑系统的复杂度,有效降低成本。为了提高翻译精度,引入中文分词、词性标注和依存句法分析联合模型,可以减少汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。在此基础上,结合依存结构的特征和中英语料的特性,对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统,该方法可以提高实例对抽取质量,改善泛化规则和译文质量,提高系统性能。  相似文献   

2.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

3.
现有分词工具应用于医学文本,出错率高,并且现有分词工具所参照的词性标注规范集,用于医学文本标注,也明显表现不足。文章基于医疗卫生文本研究依存句法,旨在发现医疗卫生文本词特征和句法特征,构建一定规模依存句法树库,为提高医疗卫生领域汉维机器翻译质量提供优质数据资源。重点研究了语义依存,不仅全面掌握词性标注特征,提出建议;而且着重发现医疗卫生文本数据独特的词间关系,标注并保存,获得医疗卫生领域语义依存树库。同时,总结的特殊句法规则,为下一步实现自动化后处理提供依据。  相似文献   

4.
藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究。该文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,实现了藏语语义依存分析。在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用感知机进行了藏语语义依存分析模型的训练,经实验该模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达到了89.56%、78.63%、71.67%及32.32%,证实了该模型在藏语语义依存分析任务中具有良好的性能。  相似文献   

5.
以机器翻译领域为应用目标, 以概念层次网络理论的语义网络和句类分析方法为理论基础, 探讨句类依存树库构建的理论和标注实践等问题。详细描述了构建树库所需的概念类别标注集和句类关系标注集, 并给出了句类依存树样例。  相似文献   

6.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

7.
句法分析是自然语言处理的一个基本问题,随着大规模标注树库的建立,基于树库的统计句法分析逐渐成为现代句法分析的主流技术。在介绍句法分析树库及句法分析性能评测方法的基础上,对主要句法分析统计模型和中文句法分析的研究现状进行简要综述和分析,并探讨和总结了基于统计的句法分析模型的不足之处和发展趋势,指出现有的汉语句法分析方法不适合汉语的特点,没有有效刻画出汉语的本质特性,导致目前汉语句法分析性能与英语相比相差较大;将语义信息融入句法分析,并在此基础上建立句法分析与语义角色标注联合学习统计模型,将是句法分析的一个重要研究方向。  相似文献   

8.
基于大规模领域内标注数据训练的句法分析模型在领域外数据上测试时,性能会急剧下降.导致该现象的原因之一是缺乏高质量的目标领域标注数据.由于人工标注数据耗时耗力,自动生成目标领域标注数据是一种有效的解决方法.其中,三元训练(tri-training)作为一种典型的多模型决策协同训练方法,旨在利用多个模型的预测结果来保证自动标注数据的质量.本文针对跨领域依存句法分析任务,系统比较了3种常用的tri-training方法,在NLPCC-2019评测数据集上取得了目前最佳的性能,并大幅度超过了目前最好结果.此外,还设计了详细的分析实验以深入理解跨领域模型性能下降的原因以及tri-training所起的作用.  相似文献   

9.
基于细粒度依存关系的中文长句相似度计算   总被引:1,自引:0,他引:1  
长句是中文书面语的常见现象,其由于结构复杂在计算句子相似度时难度较大。综合考虑依存关系中的关键元素,对中文依存句法树进行研究和分析,提出了一种细粒度依存关系的相似度计算方法。通过研究依存句法树中的各节点的词语、词性以及它们之间的依赖关系及其重要性权重等多个特征量,给出了两个依存句法树的相似度计算方法;基于该算法实现中文长句的相似度计算。实验结果表明该方法用于计算中文长句相比较其他算法有更高的准确率。  相似文献   

10.
为了进一步提高完全句法分析标注的准确率,对人工修正的完全句法分析语料进行剖析,从分词、词性和句法结构三个层面检验一致性,总结标注结果不一致的类型,并提出基于分层的自动发现不一致现象的方法及相应的消解策略。实验表明,利用该方法可使语料库标注的准确率提高2.5%。  相似文献   

11.
现有的神经机器翻译模型的注意力机制仅考虑目标端对应源端的关联信息,未考虑源端单词之间的关联信息.通过在源端进行关联性建模,融入依存关联指导,以此加强源端单词之间的关联性,提高机器翻译的性能.首先构建源端隐藏层之间的关联性,其次构建依存关联损失函数,从而将依存关联指导融入基准的神经机器翻译系统.利用循环神经网络基准模型和Transformer基准模型分别在大规模的中-英测试数据集上进行实验,结果表明,相较于基准神经机器翻译系统,融入依存关联指导可以有效提升机器翻译质量.  相似文献   

12.
语义相似度计算是自然语言处理中的一个关键过程,在机器翻译、自动问答、句法分析、词义排歧等领域都有着广泛的应用.列举并分析了几种典型的基于知网的相似度计算方法,并提出一种改进的基于知网的相似度计算方法,实验结果表明该方法是有效的.  相似文献   

13.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

14.
为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心子节点过滤表,依据该表将短语结构的CTB转换为依存结构树库.在CTB中随机抽取200句语料,转换正确率达到了99.50%.基于该转换得到的依存结构树库可以进一步进行中文依存关系解析的研究.  相似文献   

15.
针对词性标中单独使用概率方法或规则方法的缺陷,将概率方法和规则方法有机结结合起来,并引入了部分句法分析除分歧义和标注歧义,利用机器学习得到的规则对输出结果进行修正,实现了一个自学习结合部分句法分析的汉语词性标注系统。  相似文献   

16.
依存语法又称"从属关系语法",研究句子各构成成分之间的支配和从属关系。依存结构是指句子中词与词之间的句法结构关系,该结构以树状结构进行描述,被称之为依存结构树库。文章以依存语法的理论框架作为藏语树库构建的理论指导,充分借鉴依存语法的思想精髓,结合藏语语法体系,设立出符合藏语语法体系的句法和语义标注关系体系,设计了判别式的句法分析算法,从而构建了多维视窗的藏语依存树库。具体分析时,首先,对依存语法的由来、定义、依存关系的适用性等背景知识做了简要的阐释;其次,在藏语句子的筛选、藏语依存结构的形式化模型、藏语依存的骨架结构以及藏语依存树的多维关系等方面进行了研究和分析。  相似文献   

17.
文章采用基于依存分析的搭配抽取方法,在对语料进行句法依存分析的基础上抽取搭配,用词语间存在依存关系来定义搭配中的"共现",通过计算两个词的共现频率和互信息来抽取更加合理的搭配。将基于依存句法分析的搭配抽取技术应用于近70年的《人民日报》语言资源监测研究中,实验结果显示,相较于单独的词语监测方法,搭配具有丰富的语境信息,可以更好地反映语言的历时变化和社会生活的变迁。  相似文献   

18.
文章提出了一种基于规则的汉语句法分析方法 ,通过对已进行分词与词性标注的句子进行短语的人工标注形成精确度较高的语料 ,然后提取一些规则分析出短语的结构和功能类型 ,为自然语言的计算机处理提供基础研究服务。  相似文献   

19.
本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法.该方法应用于宾州大学中文树库,取得不错的组块识别效果.在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正....  相似文献   

20.
藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F值达99.25%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号