首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

2.
描述了基于统计的蒙古文自动词性标注系统的功能和总体结构,并对系统的性能进行测试.以规模为95万词的语料库作为训练语料,对5万词的测试文本进行一级词性标注,结果表明封闭测试和开放测试的准确率分别达到96.96%和96.79%  相似文献   

3.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

4.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

5.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

6.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

7.
动词与动词搭配类型的自动标注方法   总被引:1,自引:0,他引:1  
自动句法分析是中信息处理的重要环节,而在自动句法分析中,词语搭配关系的分析是关键.动词是汉语中常见的一种词性,所以动词搭配关系的确定便显得尤为重要.本在统计了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征的基础上,运用统计模型、搭配类型标注规则,识别语料中的动词-动词搭配类型.  相似文献   

8.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

9.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

10.
介绍了蒙古语词性标注系统的设计思想、实现方法及标注系统的主要功能.该系统采用基于规则和统计相结合的方法对蒙古语句子进行分类,并对已分类的句子进行词性自动标注.  相似文献   

11.
分析翻译课程中教学型语料库的构建问题,认为应结合翻译课程具体的教学法以及相应的教学步骤,以学生为中心进行教学型语料库的构建,并以比较翻译教学法为例,从微观翻译教学环节具体探讨语料库构建的类型、选材、标注等问题以及构建步骤和方法。  相似文献   

12.
介绍英汉机译中识别未登词的一种新方法,首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作 的猜测规划,正确标注未登录词、测试结果说明,标注未登录词的三种性能指标分别为;大约93.8%的查全率,76.3%的查准率及94.1%覆盖率。在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率,从而改善英语分析性能,促进英汉机译质量提高。  相似文献   

13.
通过例证,探讨了如何利用语料库进行汉语词汇英译、英语同义词词义区别、译语对等词的抉择、词;12搭配的确定等问题;实践表明:借助现代化设备自建翻译语料库开展的词汇互译研究,相比于借助传统词典具有速度快、检索方便、例证更丰富,语料更翔实等特点,也更能体现出专业特色来。  相似文献   

14.
The complex sentence structure of English is a bottleneck to our practical machi ne translation system. The simplification of English subordinate clauses will gr eatly relieves the burden of parsing and other grammatical or semantic analysis of a complex sentence, thus improves the output quality of the MT system. But th ere have not any satisfactory research achievements reported in this field up t o now as we know. In this paper, author's work on a corpus-based approach to English subordinate clause identification is reported. The approach integrate s rule-base d and statistical methods to get the left and right boundaries of the subordinat e clauses. The Penn Treebank corpus is used as the training standard. The precis ion and recall ratios of subordinate clause identification are tested on both cl osed and open corpora. A result of 92.9% precision and 91.26% recall is obtained for the closed test and the open test result is 80.34% precision and 83.93% rec all. This algorithm has been integrated into our machine translation system. The method can also be applied to processing of any other language.  相似文献   

15.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

16.
采用基于语料库数据的中介语对比分析方法,分析了中国英语学习者交际动词使用的分布情况。所使用的学习者语料库为CLEC语料库,参照语料库是英国本族语者语料库FLOB。该项研究结果表明:整体上,学习者与本族语使用者在交际动词使用频率方面差别不大;但与本族语使用者相比,中国学习者在交际动词使用方面存在过多或过少使用的问题。  相似文献   

17.
赵哲 《科技信息》2009,(7):236-236,254
德国学者赖斯根据语言的功能对文本的类型进行了划分,并且认为只有实现了文本的特定功能,译文才是合适的。根据这个划分.旅游材料属于诉求功能文本。只有实现了诉求功能,才能激发潜在的国外游客来购买旅游产品。在景介翻译中,由于大多译文按原文全篇翻译.文章在景色细节上大肆渲染给人华而不实之感。译者照搬中文的表达模式,引起读者的反感和怀疑。本文在此提出了相应的改进建议。  相似文献   

18.
提出了面向翻译研究的融合短语结构树和依存分析的短语依存树库(phrase dependency treebank,PDT)的构建思想,阐述了中英平行PDT的构建方法.PDT采用"扁平结构优先"的短语结构树和"基于语义"的依存句法功能标注原则,有别于传统依存分析的完全二分法.大连理工大学中英平行PDT(DUT-CEPDT)的生语料取自文本质量较高的政府工作报告和白皮书及其官方译文.首先,对文本进行分词和词性标注之后,利用专为语言学家开发的辅助工具LingTreeConstructor构建中文和英文的单语PDT;之后,在两个单语PDT之间从篇章到词的节点进行对齐,这种多层次的立体对齐比只有词、短语或句子的单层对齐能提供更丰富的翻译知识;最后,依据FrameNet进行双语平行的框架语义角色标注.DUTCEPDT将为译员培训和机器翻译研究提供所需的标准语料.  相似文献   

19.
调查高职院校英语教师使用语料库技术情况,结果显示,目前高职院校的英语课堂教学中很少将语料库语言学的研究成果和语料库资源应用其中。应对英语教师进行有关语料库语言学教学方法的培训,实现真正意义上的“以学生为中心”的英语教学方法的转变。  相似文献   

20.
国内儿童文学翻译研究比较薄弱,运用语料库方法研究儿童文学翻译的研究更是少见.文章对国内外儿童文学翻译研究进行了综述,通过以《海的女儿》任溶溶译本和叶君健译本为研究个案,采用语料库研究方法,从句长、词类、标点等微观层面考察译者风格.研究发现:任译句子偏长,用词丰富;叶译句子短,叹号等标点符号频率高,感情丰富;叶译的类符/形符比低,词汇密度低,语言更简单,易读性更强.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号