首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
 由于说话人的语音信号具有时变性、随机性,其特征参数也呈现出高维及相邻帧变化较大等特点。从量子信息处理理论出发,将一帧语音信号视为一个量子态,在传统神经网络的基础上,利用量子逻辑线路构造神经网络,实现说话人语音信号的有效聚类,探索一种基于量子逻辑线路神经网络的说话人识别模型与方法。利用模型固有的大量全局吸引子,可有效降低语音信号处理的时间及复杂度。通过在经典计算机上模拟仿真,并与BP神经网络说话人识别模型进行对比,表明该方法能够加快说话人识别模型的收敛速率,对参数变化具有更好的鲁棒性,且其系统识别率比BP神经网络方法平均提高了3.34%。  相似文献   

2.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算法,取得更加优异的识别效果,消耗更少的训练时间.  相似文献   

3.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

4.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

5.
为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势.  相似文献   

6.
采用基于听觉特性的Mel频率倒谱系数作为说话人识别特征参数,对概率神经网络进行了描述,并使用该网络进行了文本无关说话人识别研究.实验表明,对20名说话人,用7秒语音训练,3秒语音识别时,该方法可达到96.7%的正确识别率.  相似文献   

7.
荣蓉 《山东科学》2008,21(4):62-65
说话人识别是语音识别的一种特殊方式,对于各种领域的身份认证具有得天独厚的优势。以线性预测系数(Linear Predielion Coefficients,LPC)作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。实验结果表明,这种神经网络系统在说话人辨认中是有效的。  相似文献   

8.
改进的神经网络快速学习算法   总被引:1,自引:0,他引:1  
提出了一种新颖的神经元模型和用于神经网络训练的推广准则,给出了多层神经网络的快速学习算法,研究了一种用于语音识别的时变多层神经网络及其相应的快速学习算法.语音识别实验表明:所给出的快速学习算法能有效地加速网络训练进程.  相似文献   

9.
白玉  陈立伟 《应用科技》2005,32(12):45-47,50
提出一种基于遗传神经网络的说话人识别系统.将遗传算法和矢量量化技术结合建立说话人模型,然后利用遗传神经网络进行识别.实验结果表明,这种方法既降低了用户的语音数据采集量,有利于话者模板的建立,又提高了系统的识别性能及鲁棒性,较传统方法有明显的优越性.  相似文献   

10.
介绍了一种基于差别子空间的语音识别算法,并从最优标准和最优解的角度,在理论上论证了该算法与传统的DTW算法的优劣。然后用MATLAB实现了这两种算法,并进行了大量的孤立词语音识别实验,理论和实验表明,基于差别子空间的语音识别算法非常有效,识别率在多次训练时高于传统的DTW算法。  相似文献   

11.
设计了一种基于多层激励函数量子神经网络的音频水印算法。将水印信号嵌入载体语音的小波低频系数中,再训练量子神经网络建立水印嵌入前后低频小波系数间的联系以便在接收端恢复水印。同时,区别于传统的归一化方法,将小波低频系数规范到同一数量级,避免了恢复水印时小波低频系数的差错传播,提高了算法的鲁棒性。实验结果表明,设计的水印算法对加噪、滤波、重采样和再量化等攻击具有较强的鲁棒性,提取正确率相比BP网络水印算法平均提高1.8%。  相似文献   

12.
一种时间规整算法在神经网络语音识别中的应用   总被引:6,自引:0,他引:6  
提出一种新的网络结构,这种网络能够很好地解决神经网络语音识别中的时间规整问题。该网络从输入语音信号的特征矢量序列中提取一组固定数目的特征矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化分类器的网络结构并保持较高的识别率。  相似文献   

13.
为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能.  相似文献   

14.
一种面向语音识别的新型神经网络   总被引:1,自引:0,他引:1  
提出了一种新型神经网络模型,描述了该网络的工作原理和训练方法以及识别算法。为克服神经网络对时序信号建模能力差的缺点,引入了非线性分段处理和代表帧特征提取方法。最后介绍了根据这一模型所设计的一个汉语语音识别系统,试验表明该网络在汉语语音识别方面具有较大的潜力。  相似文献   

15.
提出了一种有效的降维构建方法改善来波到达角(DOA)估计的性能。该方法利用局部保持投影(LPP)对DOA估计用的神经网络的训练样本进行降维,以降低神经网络的复杂度,加快神经网络的训练过程。与常用的协方差矩阵上三角特征相比,在不损失有效方位信息的基础上,可以使特征维数极大地降低。数值实验表明,基于局部保持投影和神经网络的方法具有良好的估计精度和效率,同时对噪声也有较强的适应能力,能够很好地满足波达方向估计实时性的要求。  相似文献   

16.
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。  相似文献   

17.
近年来卷积神经网络(convolutional neural network,CNN)在行为识别任务中取得了较大的进展.然而,现有的神经网络方法往往只注重高层语义信息的利用,对浅层特征信息挖掘利用不够.针对这一问题,提出一种基于3D卷积(convolution 3D,C3D)的多尺度3D卷积神经网络的行为识别方法.该方法受到特征金字塔结构的启发,在原C3D的基础上融合C3D的浅层特征信息,实现端到端的行为识别.同时该方法以现有的深度学习理论为基础,利用迁移学习的思想,将C3D和该方法中相同模块部分的参数迁移到本方法中,以降低模型的训练时间.通过在UCF101数据集上进行实验,实验结果表明,提出行为识别方法的分类精度达到84.56%,分类效果优于原C3D分类网络.  相似文献   

18.
根据语音信号的“可视”特点,提出了一种基于简化脉冲耦合神经网络(PCNN)实现孤立词语音识别的方法。将语谱图输入到PCNN中得到相应的时间序列标识,作为语音信号的特征参数,然后通过模板匹配法和概率神经网络(PNN)相结合的方法实现语音分类识别。仿真结果表明,该方法能够达到较高的语音识别率。  相似文献   

19.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号