首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
张剑  袁华强 《科学技术与工程》2013,13(21):6299-6301,6305
提出了一种新的非生成式的概率模型框架-Rhetorical-State支持向量机(RSSVM),用于抽取有层次结构的演讲语音摘要。在演讲语音摘要抽取中,隐藏在演讲中的修辞结构是最没有被充分利用到的信息之一。将RSSVM与修辞状态隐马尔可夫模型(RSHMM)结合一起,用来自动解码演讲中的修辞结构信息与摘要信息。从实验结果中发现,RSSVM-RSHMM抽取摘要的性能达到了72%ROUGE-L F-measure,与不使用修辞信息的基线系统相比,其性能提高了9.8%。  相似文献   

2.
语言能力测试常用于评估低龄儿童的词汇储备等能力,运用语音识别等人工智能技术能够提高语言能力测试的工作效率,从而让更多的语言发育迟缓儿童能被尽早发现并得到治疗.低龄儿童语音相较于成人语音更难识别,且缺乏相关公开数据集,为了解决语言能力测试场景下的低龄儿童语音词汇识别问题,采集72名2~3岁儿童的语音数据,对具有参数少、计算成本低等特点的MobileNet模型进行了改进,并使用模型无关的元学习方法(MAML)优化改进模型,使改进模型适用于小样本环境下的低龄儿童语音词汇识别.实验证明,相关改进措施均能提高模型的儿童语音词汇识别性能.  相似文献   

3.
鲁棒语音识别技术综述   总被引:1,自引:0,他引:1  
鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用.  相似文献   

4.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

5.
针对语音情感识别过程中特征不充分的问题,提出了约束式双通道模型,从全局和局部两方面充分挖掘特征所包含的情感信息,从而提高情感识别率.通道1是针对语音特征的全局信息,通过改进门控循环单元,构建了BAGRU(bidirectional attention gate recurrent unit)模型,提高了语音特征之间的相关性;通道2是针对语音特征的局部信息,卷积神经网络与对抗训练结合,避免了局部信息相互干扰.通过双通道融合模型,根据通道特征重要程度生成不同权重,同时引入正交约束,解决了融合时产生特征冗余的问题.研究结果表明,在IEMOCAP和EMO-DB情感语料库上分别达到了62.83%和82.19%的识别精度,表现出了良好性能.  相似文献   

6.
为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。  相似文献   

7.
基于听感知特征的语种识别   总被引:3,自引:0,他引:3  
为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。  相似文献   

8.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

9.
为了提高语音识别准确率,提出了一种子空间域相关特征变换与融合的语音识别方法(MFCC-BN-TC方法)。该方法提取语音短时谱结构特征(BN)和包络特征(MFCC)分别描述语音短时谱结构和包络信息,并采用域相关特征变换的形式分别对BN和MFCC特征进行特征变换;然后对这种变换进行泛化扩展提出子空间域相关特征变换,以采用不同的时间颗粒度(帧和语音分段)进行多层次区分性特征表达;最后,对多种区分性特征变换后的特征进行联合表征训练声学模型,并给出了区分性特征变换与融合的一般框架。实验结果表明:MFCC-BN-TC方法比采用原始BN特征方法和采用MFCC特征基线系统方法,识别性能各自提高了0.98%和1.62%;融合MFCCBN-TC方法变换以后的语音信号特征,相比于融合原始特征,识别率提升了1.5%。  相似文献   

10.
语音端点检测(voice activity detection,VAD)是在连续语音信号中,将语音和非语言片段分离的技术。VAD在语音识别、说话人识别、语音编码等领域起着重要作用。传统VAD算法在类型已知的噪声环境下可以达到较好的性能,但在实际情况中,未知噪声的影响通常会使系统性能下降显著,在差异化噪声下的VAD是端点检测的研究难点。在总结现有语音端点检测算法基础上,提出了一种基于深度神经网络的语音端点检测方法,同时结合维特比算法,与基于贝叶斯信息准则(bayesian information criterion, BIC)的混合高斯模型(gaussian mixture model,GMM) 语音端点检测系统进行对比,在大词汇连续语音识别系统中的实验结果表明,将深度神经网络结合维特比算法,应用于语音端点检测,在复杂噪声环境下取得了更好的效果,适应性更强。  相似文献   

11.
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台.  相似文献   

12.
基于统计语义和结构特征的自动文摘   总被引:9,自引:4,他引:5  
在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同时,为了解决文摘的冗余和不连贯缺点,进行了一系列的后期处理,提高了文摘的质量。  相似文献   

13.
顾明亮 《广西科学》2007,14(4):423-425
将声学特征与韵律特征相结合,提出一种新的混合区间特征,并将该特征和常见的美尔倒谱系数(MFCC)特征与线性预测倒谱系数(LPCC)特征进行对比,通过符号化语言辨识方法对北方方言、吴方言、粤方言和闽方言进行辨识,以验证混合区间特征的有效性。结果表明,混合区间特征比MFCC特征和LPCC特征具有更好的方言辨识效果,对4种汉语方言15s语音片段的方言辨识率可以达到92%。4种方言中,混合区间特征对闽方言和粤方言的识别率最高,分别达到了96%和95%。  相似文献   

14.
基于粗神经网络的语音情感识别   总被引:1,自引:1,他引:0  
语音情感识别是从语音信号中提取一些有效的声学特征,然后利用智能计算或者识别的方法对话者的情感状态进行识别。介绍了国内外在该领域中关于语音情感数据库、特征提取、识别方法的研究现状。基于对该领域现状的了解,发现特征提取对识别率有着非常大的影响。录制了1050句语音,每句语音提取了30个特征,从而形成了一个1050×30的数据库。提出了用粗糙集理论中的信息一致性对数据库中的30个特征进行化简,最后得到了12个特征。用神经网络中的BP网络对话者的情感状态进行识别,最高识别率达到了84%。从实验结果发现不同的情感用不同的方法识别结果更好。  相似文献   

15.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

16.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

17.
提出一种基于语义核函数的问题分类算法,该算法基于问题的语法结构构建支持向量机(SVM)核函数.首先,将给定的问题解析为语法树结构,用语法树的子树表示该问题;然后,从词法、语法、语义三个层面提取问题的特征,构成更加丰富的特征空间;接着,基于问题的语法树构建核函数;最后,使用潜在语义索引方法并结合问题的词法、语法以及语义特征,通过语义核函数将特征空间映射到更有效的空间中进行问题分类.TREC数据集上的实验结果表明,通过词法、语法以及语义增强的问题特征空间可以提高分类准确率.  相似文献   

18.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

19.
Efficient auditory coding   总被引:2,自引:0,他引:2  
Smith EC  Lewicki MS 《Nature》2006,439(7079):978-982
The auditory neural code must serve a wide range of auditory tasks that require great sensitivity in time and frequency and be effective over the diverse array of sounds present in natural acoustic environments. It has been suggested that sensory systems might have evolved highly efficient coding strategies to maximize the information conveyed to the brain while minimizing the required energy and neural resources. Here we show that, for natural sounds, the complete acoustic waveform can be represented efficiently with a nonlinear model based on a population spike code. In this model, idealized spikes encode the precise temporal positions and magnitudes of underlying acoustic features. We find that when the features are optimized for coding either natural sounds or speech, they show striking similarities to time-domain cochlear filter estimates, have a frequency-bandwidth dependence similar to that of auditory nerve fibres, and yield significantly greater coding efficiency than conventional signal representations. These results indicate that the auditory code might approach an information theoretic optimum and that the acoustic structure of speech might be adapted to the coding capacity of the mammalian auditory system.  相似文献   

20.
Mesgarani N  Chang EF 《Nature》2012,485(7397):233-236
Humans possess a remarkable ability to attend to a single speaker's voice in a multi-talker background. How the auditory system manages to extract intelligible speech under such acoustically complex and adverse listening conditions is not known, and, indeed, it is not clear how attended speech is internally represented. Here, using multi-electrode surface recordings from the cortex of subjects engaged in a listening task with two simultaneous speakers, we demonstrate that population responses in non-primary human auditory cortex encode critical features of attended speech: speech spectrograms reconstructed based on cortical responses to the mixture of speakers reveal the salient spectral and temporal features of the attended speaker, as if subjects were listening to that speaker alone. A simple classifier trained solely on examples of single speakers can decode both attended words and speaker identity. We find that task performance is well predicted by a rapid increase in attention-modulated neural selectivity across both single-electrode and population-level cortical responses. These findings demonstrate that the cortical representation of speech does not merely reflect the external acoustic environment, but instead gives rise to the perceptual aspects relevant for the listener's intended goal.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号