首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 13 毫秒
1.
基于概率频度的普通话韵律结构预测统计模型   总被引:1,自引:0,他引:1  
为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。  相似文献   

2.
论述了采用统计模型进行汉语韵律层次结构分析和韵律建模的思路,将韵律结构划分为3个基本层级:韵律词,韵律短语和韵律短语群,提出了一种新的基于统计的韵律结构模型。实验表明该模型对韵律词边界的预测准确率和召回率分别达90.37%和92.48%:对韵律短语边界的预测准确率和召回率分别达82.43%和85.59%。同时,描述了一个汉语连续语流语音合成的选音算法,它适用于基于大语料库的语音合成系统。由于同时考虑单音节、二字韵律词、三字韵律词和四字韵律词,从而降低了因拼接点不连续而造成的音质损失,提高了合成语音的自然度。  相似文献   

3.
基于词类序列的汉语语句韵律结构预测   总被引:1,自引:0,他引:1  
为完善计算机汉语语音合成,构建了韵律结构预测系统。该系统区分了现代汉语中韵律结构与语法结构存在对应关系和不存在对应关系的两类单位,采取确定韵律结构和调整韵律结构,分别处理这两类单位;考虑了"的"、"介词"等功能词在韵律短语预测中的作用;面向汉语文语转换应用的语句韵律词及韵律短语;只依赖语句的词类音节数序列等简单的文本信息。在107句语料上进行了测试。结果表明:韵律词预测正确率达95%,韵律短语预测正确率约81%,操作性较强。  相似文献   

4.
语音的韵律特征对情感表达起着非常重要的作用。在基于韵律修改的情感语音转换系统中,为了更为准确地预测情感语音的韵律特征,该文提出一种层次化的韵律分析与建模方法,针对愤怒、高兴、悲伤、惊奇这4种情感对语音按照韵律结构的层级进行分析,探讨不同层次之间情感韵律特征变化规律的关联性和叠加性,并使用高层音段信息作为输入对低层信息进行决策树建模。实验结果表明,本方法对情感韵律特征的预测均方误差比局部分音段以及传统的决策树韵律模型低大约5%。  相似文献   

5.
在藏语单句的层面上,通过时长参数的统计分析,对韵律词和韵律短语两层韵律单元的时长特征进行了研究.研究结果确定了藏语韵律词和韵律短语的基本大小,韵律词为4±2个音节,韵律短语为6±3个音节;藏语韵律单元的总体时长分布差异较大,但不同韵律单元的时长伸缩幅度差异较小.藏语韵律单元的时长分布类型以尾长型为主;韵律单元边界处普遍具有边界前音节延长,边界后音节缩短现象的特征.  相似文献   

6.
汉语的韵律系统包括韵律的结构规则。根据韵律构词学理论,最小的能够自由运用的韵律单位是音步,韵律词至少是一个音步。汉语最基本的音步(韵律词)是两个音节,复合韵律词是两个音步,俪句是两个句子。韵律的这种求偶性结构,反映了语言中的轻重抑扬和骈俪对仗。汉语书面广告语言运用中,韵律的结构方式被凸现出来,一半以上的广告词使用了标准韵律词、复合韵律词和俪句,使得汉语书面广告语言结构匀整、抑扬有致、明丽上口,并且给人以沉稳、踏实、可信之感,对人们接受广告信息产生了直接的效用,充分发挥了广告的功能。  相似文献   

7.
本文提出"减词"的三个原则,分析了"减词"运用的两种情况:即从语法角度进行减省和从修饰角度进行减省,同时指出了"减词"在翻译中的作用,即通过运用"减词",不仅可使译文变得语言简洁,而且还可使译文符合汉语习惯.  相似文献   

8.
有效预测舆情事件的热点内容有利于提高对舆论导向的把控能力和对公众诉求的预判能力. 然而,现有的舆情预测工作大多关注事件整体趋势指标或情感极性的演变预测,鲜有针对舆情事件热点内容的预测研究. 为解决以上问题,本文提出一种基于时间演化图卷积网络的舆情热点内容预测方法:以舆情事件的热点词作为预测对象,首先,通过演化图卷积网络学习各时间片词语的空间关联关系;然后,使用门控循环单元捕捉各时间片词语特征的时序变化;最后,通过全连接层进行输出,实现对舆情事件热点词的预测. 以微博上两个不同的舆情突发事件的相关文本作为数据集,与两种现有热点词预测方法开展对比实验. 实验结果表明,该方法在两个数据集上的精确率分别达到51.21%和50.98%,召回率分别达到50.17%和48.15%,F1值分别达到50.68%和49.52%,均高于两种对比方法,能够更好地完成舆情事件中热点词的预测.  相似文献   

9.
韵律词边界的协同发音问题——对语音合成自然度的思考   总被引:1,自引:0,他引:1  
就目前语音合成自然度的现状,探讨了合成语音中韵律词边界V#C,VN#C之间的无声间隙和过渡音存在的问题,以及由此造成的合成语音中词或短语之间的顿挫感和个别音段自然度较差的问题.该文在基于对普通话协同发音生理(EPG)研究的基础上,揭示了韵律词边界存在的协同发音现象并提出了解决合成自然度问题的方案.结果表明:韵律词边界闭塞(GAP)和停顿(SP)的区别在于,停顿表现在元音韵尾无过渡音且时长延长,辅音无声段时间较长,而闭塞则不同;语料库中增加擦音前韵尾的标注信息作为合成的匹配规则,可以消除合成中擦音前的顿挫感;韵尾过渡音中舌前辅音前面的韵尾F2上升,舌前辅音中的翘舌音/zh,ch,sh,r,l/使韵尾的F3下降.舌根音、唇音和唇齿音使前面的韵尾F2下降;语调短语的韵律词边界没有V#C、VN#C的过渡音且边界间是停顿而非闭塞,不存在协同发音现象.  相似文献   

10.
韵律构词学原理认为,最小韵律词是一个至少由两个韵素构成的合格音步。分析表明:武呜壮语的最小韵律词也符合这一标准。从韵律构词角度来看,其音节中没有真正意义上的CV型音节;武鸣壮语区分重音节和超重音节。同时在韵律的作用下,其中的VC型音节和非典型VVC型中的音节尾辅音C都具有韵素地位,与V组成两个韵素构成一个最小韵律词。  相似文献   

11.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

12.
语言是一种以语音为物质外壳,以词汇为建筑材料,以语法为结构规律而构成的体系。词汇是语言的最小单位,由语音、形态、语义三大要素构成。语言是人的思维的产物,人类的逻辑思维内嵌于词汇各要素信息内部。把握词汇内部的逻辑性规律,对借助词汇的逻辑知识来演绎新的词汇和语义,推动二语习得有借鉴。  相似文献   

13.
词义演化的计算方法   总被引:1,自引:1,他引:0  
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。  相似文献   

14.
提出利用卷积神经网络(CNN)预测英文单词情感极性,并利用英文单词情感极性设计量化篇章情感倾向的方法.首先,利用fastText技术训练词嵌入模型,将英文单词转化为定长、稠密的词向量;接着,以词向量作为输入,构造一维CNN模型,并设计出多种具有不同深度的架构;最后,利用CNN预测模型计算篇章中所含英文单词的平均情感极性作为篇章情感倾向的量化分值.实验结果表明:相比于传统的机器学习模型,提出的CNN预测模型能够提升英文单词情感预测精度,所设计的篇章情感量化方法,也与主观判决情感色彩有较好的一致性.  相似文献   

15.
基于互信息改进算法的新词发现对中文分词系统改进   总被引:6,自引:0,他引:6  
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法--PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。  相似文献   

16.
基于统计的无词典分词方法   总被引:17,自引:0,他引:17       下载免费PDF全文
通过分析词的结合模式,提出无词典分词模型,并对该模型进行实验测试。测试结果表明,无词典分词模型能够满足快速分词的要求。  相似文献   

17.
介绍英汉机译中识别未登词的一种新方法,首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作 的猜测规划,正确标注未登录词、测试结果说明,标注未登录词的三种性能指标分别为;大约93.8%的查全率,76.3%的查准率及94.1%覆盖率。在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率,从而改善英语分析性能,促进英汉机译质量提高。  相似文献   

18.
一种基于后缀数组的无词典分词方法   总被引:9,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

19.
根据图层定义,提出了针对可缩放矢量图形(SVG)格式地图的模糊查询模型.通过构建模糊查询词库来储存模糊查询相关词和模糊查询匹配模式.在此基础上,提出了分词子算法,将查询语句分解为词串.据此给出了语义分析子算法,将分词子算法产生的词串转化成模糊查询匹配模式,并与SVG格式地图相关层(一层或多层)中的元素关联以实现模糊查询.最后实验验证证明了该模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号