首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果。对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

2.
在蒙古语语音合成系统中,语料库的好坏会直接影响语音合成的效果.因此,语料库标注规则的设计对语音合成工作具有重要意义.提出了一种新的蒙古语语音合成语料库的标注规则,并用按此规则标注的蒙古语语料库进行了基于隐马尔科夫模型的蒙古语语音合成实验,合成效果达到了预期目标,说明我们提出的标注规则是合理可靠的.  相似文献   

3.
介绍了蒙古语词性标注系统的设计思想、实现方法及标注系统的主要功能.该系统采用基于规则和统计相结合的方法对蒙古语句子进行分类,并对已分类的句子进行词性自动标注.  相似文献   

4.
蒙古语是东胡后裔诸语言中的一支,东胡人的后裔-鲜卑人,室韦人,契丹人的语言有一脉相承的联系,室韦人的语言被称作原蒙古语,原蒙古语经过一系列突厥化过程而形成古蒙古语,研究蒙古语的形成过程,必须结合东朝后裔的历史来观察东胡后裔诸语言的发展,及其同蒙古语族各语言之间的历史关系,对原蒙古语的研究,于蒙古族族源研究肯 决定性的意义。  相似文献   

5.
短语树库是自然语言处理的研究和实际应用的重要资源,就越南语而言目前也缺乏这类树库资源,不利于汉越双语信息处理工作.提出一种融合越南语语法特征与改进PCFG(概率上下文无关文法)的越南语短语树库构建方法,能够自动分析出越南语的短语结构树,从而可解决了越南语短语树库的自动构建问题.首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建.实验结果表明,新的PCFG模型针对越南语短语树库构建的准确率达到了81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了2%~3%.  相似文献   

6.
对原始蒙古语辅音系统的构似,主要有两种倾向,一种倾向认为,现代突厥语辅音系统是构拟古代蒙古语辅音系统的基础。另一种倾向认为,蒙古语族语言及其方言土语和中世纪文献资料是构拟古代蒙古语辅音系统的基础,突厥语言不应该是构拟原始蒙古语辅音的基础,拟测出来的原始形式一要能合理地说明实语言的歧异,二要符合语音演变规律。  相似文献   

7.
层次化蒙古语统计语言模型   总被引:1,自引:0,他引:1  
蒙古文具有典型的构词、构形词缀的特点,一个蒙古语单词往往可以切分成词干和词缀等若干个部分.根据蒙古语的特点,提出了一种层次化的蒙古语语言模型,将蒙古语语言模型分为词干和词干、词干和词缀、词缀和词缀三个层次.在这三个层次上分别计算出独立的语言模型.把这种层次化的蒙古语语言模型方案应用到了一个统计汉蒙机器翻译系统中,实验证明所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果.  相似文献   

8.
在蒙古语远程教育平台的建设中,可以通过蒙古语教学网站将教学资讯和优秀的教学资源及时地提供给老师与学生,达到提高教学水平的目的.动态蒙古语网站的建立由于其语种的特殊性存在着一些特有的问题需要解决.对动态蒙古文网站建设中的若干技术难题进行了探讨,给出了解决方案.  相似文献   

9.
以现代哈萨克语短语识别与短语块库构建技术研究工程为背景,以NP和VP结构的歧义类型研究及消除为目的,提取统计方法来处理NP和VP结构的歧义问题.该方法在已经统计与分析出的哈萨克语短语基础上,对哈萨克语NP和VP短语组合结构歧义做全面分析和整理.用互信息方法解决NP和VP的歧义问题准确率(72%)并不高.为了达到更好的准确率就需要数量较大的训练语料库,但是目前实验环境并没有足够的语料.因此,基于规则方法标注好语料并采用人工方式完善训练语料库,再使用最大熵方法来处理歧义问题.实验结果表明,基于统计方法解决NP和VP结构的歧义问题是有效的,其准确率在封闭测试中达到了80.1%.  相似文献   

10.
以《中国少数民族语言语音声学参数统一平台》的原理,用实验语音学的方法分析了保安语单音节短元音的声学特征,并将蒙古语、东乡语和保安语三种蒙古语族语进行了比较.得到以下结论:蒙古语族语言保安语单音节短元音有[а][][I][ε][o][υ]等6个短元音音位,但是不能代表该语言音位系统就只有6个元音音位.根据三个顶点元音([i]、[u]、[α])的位置和各个语言的元音的分布区域中得知蒙古语最宽,其他语言紧密相连.其中,保安语的[i]元音比蒙古语的舌位偏高且偏后;保安语[u]元音比蒙古语的舌位偏高且偏前;保安语[α]元音比蒙古语的舌位偏低且偏后.保安语的[i]元音比东乡语的舌位偏高且偏前;保安语[u]元音比蒙古语的舌位偏高;保安语[ɑ]元音与蒙古语的舌位有重叠现象.这也验证了前人对于蒙古语族语言之间的研究是有共性的,并且存在不同差别的结论 .  相似文献   

11.
通过分析蒙古语的词组能够辨别出蒙古语中的一些突厥语借词,我们称其为词组分析法。使用词组分析法对蒙古语中由同义或近义的两个词构成的词组进行分析,发现通过此方法可以辨别出蒙古语中的一些突厥语借词。  相似文献   

12.
面向信息处理的蒙古语词语分类体系研究   总被引:2,自引:0,他引:2  
提出面向信息处理的现代蒙古语词语分类体系及其标记集,并且对分类体系中的15个词类的分布特征从形态变化、句子成分功能和短语组合功能等方面进行了描述。  相似文献   

13.
名词短语在自然语言处理中具有重要的地位.文章首先从语言学角度定义了名词短语,然后为名词短语识别的问题设计了一个序列标注模型,最后将隐马尔科夫支持向量机用于学习该序列标注问题.实验显示取得了满意的准确率和召回率.  相似文献   

14.
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音.委托北京大学计算语言学研究所进行了手工整理标注.为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性.共整理短语119 984条,噪音短语比例约占7%.当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用.  相似文献   

15.
在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。  相似文献   

16.
从文本中准确地预测语调短语是提高合成语音自然度的关键之一。已有的语调短语预测方法多从词法或浅层句法信息入手,然而自然语流中语调短语的划分不仅与语法结构相关,也受其长度分布规律的约束。该文详细地比较了基于规则和基于概率、嵌入式和后接式、全局最优和局部最优等多种语调短语长度约束模型。实验结果表明:口语中语调短语的规划是一种短时的局部规划,并且对短语长度独立建模的效果优于将短语长度信息直接加入统计分类模型的特征集。  相似文献   

17.
针对蒙古语语音识别系统急待设计出相应问题集的现状,讨论了蒙古语问题集设计中的原则、音子集的选择、音素表的完善、复合元音的归类、松与紧概念的应用等关键问题的解决方案,给出了一个蒙古语标准音问题集.多次对比实验结果表明,该蒙古语问题集能够有效支持基于决策树的状态聚类与绑定方法.  相似文献   

18.
英汉商务信函语料库中语块提取研究在借鉴语块理论研究的基础上,提出商务信函中英语和汉语语块的界定标准,对其进行了分类和形式化描述,提出了一种基于规则匹配的方案,通过自动在互联网上采集网页构筑动态语料库,利用英汉商务信函语块的结构、意义和功能等方面的特征制定英汉商务信函语块自动提取规则,从而实现从未经人工校对、自动分词以及词性标注的生语料中自动提取英汉商务信函语块的功能。该文依据语块理论来探讨英汉商务信函语料库中语块提取研究的研究目的,主要工作和研究成果。  相似文献   

19.
CUCBNC:一个引入播音学知识的广播新闻语音库   总被引:1,自引:0,他引:1  
该文描述了广播新闻语音库CUCBNC的构建过程。建设该语音库的目的是为了能将播音学相关知识应用到言语工程中。为此,通过解读播音学相关论述,提出了新的韵律特征,包括声音表达特征、语篇重音、意合群和复合韵律短语,并融入到CUCBNC语音库的韵律和文本标注规范中,目前已标注了约14h的语音数据。最后,通过观察相关韵律特征在标注数据中的统计分布,来检验融入了新特征的韵律标注规范是否合适。实验结果表明所提出的韵律特征是科学合理的。  相似文献   

20.
文章以中国社会科学院民族学与人类学研究所民族语言实验研究团队研制的"中国少数民族语言语音声学参数统一平台"和语音声学模型形成平台,对蒙古语族语言东乡语、保安语进行了系统的语音实验.并且结合现已发布的蒙古语、土族语、东部裕固语语音声学参数数据库进行了蒙古语族语言各亲属语言语音声学模型的验证.初步结论为:蒙古语族语言各亲属语言极有可能在元音声学模型方面存在语言发生学关系;在音段层面,蒙古语族语言各亲属语言呈现的相似性能更好地说明蒙古语族语言各亲属语言比较接近,并且具有同源关系的属性或性质.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号