首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

2.
将卷积神经网络(convolutional neural networks,CNN)声学模型应用于中文大词表连续电话语音识别任务中,分析了卷积层数、滤波器参数等变量对CNN模型性能的影响,最终在中文电话语音识别测试中,CNN模型相比传统的全连接神经网络模型取得了识别字错误率1.2%的下降.由于卷积结构的复杂性,常规的神经网络加速方法如定点量化和SSE指令加速等方法对卷积运算的加速效率较低.针对这种情况,对卷积结构进行了优化,提出了2种卷积矢量化方法:权值矩阵矢量化和输入矩阵矢量化对卷积运算进行改善.结果表明,输入矩阵矢量化方法的加速效率更高,结合激活函数后移的策略,使得卷积运算速度提升了8.9倍.  相似文献   

3.
目前说话人、环境及发音多样性仍是语音识别声学建模中需解决的主要难题,为了克服这些不利因素的影响,本文将经过三层结构优化后的卷积神经网络应用于语音识别,利用卷积神经网络的卷积不变性克服语音信号的多样性,采用更符合生物神经元特性的新型激活函数改进卷积层缓解梯度消失的问题;利用中间池化方法改进池化层、减小特征提取误差,使用卷...  相似文献   

4.
情绪在人们的思考、行为和交流方式中起着重要作用。为提高脑电信号的情绪识别准确率,充分利用脑电信号的频率、空间和时间维度上的信息,提出一种基于CNN-BiLSTM(convolutional neural networks-bidrectional long short term memory)的脑电情绪分类神经网络模型。该模型由卷积神经网络和多层特征融合的双向长短时神经网络构成,卷积神经网络用于学习脑电信号的频率和空间特征,双向长短时神经网络则从卷积神经网络的输出中挖掘脑电切片之间的时序信息。借助离散情绪模型的SEED(sjtu emotion eeg dataset)数据集和连续情绪模型的DEAP(database for emotion analysis using physiological signals)数据集来进行情绪分类实验。实验结果表明,在SEED和DEAP两个数据集上,CNN-BiLSTM模型均取得了目前最好的情绪分类性能。此外,该模型的时序信息挖掘模块性能优于单层长短时神经网络,能够学习更多的时序信息。  相似文献   

5.
近几年卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理以及信息检索等领域得到广泛应用,颈部臂丛神经超声图像具有较低的信噪比、较低的对比度、模糊的边缘,其分割是一项富有挑战性的工作。文章针对目前臂丛神经超声图像手工标注的训练样本较少的情况,对U-Net模型进行改进,构建了一个适用于臂丛神经分割的卷积神经网络模型QU-Net,并选择BP图像数据库进行训练、测试。实验结果表明,与主流神经卷积网络分割算法SegNet、U-Net相比,QU-Net的图像分割结果具有更高的准确性。  相似文献   

6.
卷积神经网络在单幅图像超分辨率重建方面取得了很大的进展,目前的很多方法都选择使用浅层或者深层的卷积神经网络实现图像超分辨率重建。浅层网络结构简单,但容易丢失图像的高频信息,而深层网络可以学习图像的高频纹理特征。本文提出了双通道卷积神经网络。浅层网络负责重建图像的整体轮廓,保留图像的原始信息;深层网络学习图像的高频纹理特征。在深层网络中,使用密集连接的卷积网络,能更有效地恢复图像的高频信息。同时,在两个网络的末端,通过添加额外的卷积层表示融合层,将网络进行融合,重建超分辨率图片。实验结果表明,在大多数情况下,本文模型的重构效果在主观和客观评估中均优于当前代表性的超分辨率重构方法。  相似文献   

7.
环境声音识别在音频检索、监控方面有着广泛的应用,是听觉识别任务中的一个热门研究领域。但由于其声音信号的复杂多变,使得该任务在识别率提升方面依然面临许多挑战。针对这一问题本文提出了基于改进卷积神经网络的环境识别模型(S-CNN),该模型采用反复堆叠的递减型卷积核提取不同尺度的局部特征,并在每层卷积层后采用Batch Normalization(BN)层对特征进行归一化操作。同时,利用动态衰减的学习率训练模型,以提高模型收敛速度与收敛稳定性。实验结果表明,相比于传统的机器学习与卷积神经网络模型,本文所设计的改进卷积神经网络模型S-CNN具有更好的识别率。在ESC-10环境声音数据库上,识别精度达到91.3%。  相似文献   

8.
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。  相似文献   

9.
使用录音设备对1 605个常用汉字进行录音,得到920个孤立字发音、3 680个非特定人的语音样本库.采用语音语谱图作为汉语单字语音识别的特征,构建了6层卷积神经网络应用于模型库的语音识别.通过深度学习方法对语音样本进行了训练和识别.实验结果表明,所构造的20-40-3500结构的卷积神经网络模型对语音样本库具有最好的识别效果,对测试样本的识别率达到97.87%,对全部样本的识别率达到99.32%.  相似文献   

10.
为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算法流程,并进行了动物语音识别实验.实验结果表明,该全卷积神经网络深度学习算法是一种语音自动识别的有效方法,解决了蛙声识别问题,为动物语音识别提供参考.  相似文献   

11.
Deep neural networks(DNNs) have drawn great attention as they perform the state-of-the-art results on many tasks. Compared to DNNs, spiking neural networks(SNNs), which are considered as the new generation of neural networks, fail to achieve comparable performance especially on tasks with large problem sizes. Many previous work tried to close the gap between DNNs and SNNs but used small networks on simple tasks. This work proposes a simple but effective way to construct deep spiking neural networks(DSNNs) by transferring the learned ability of DNNs to SNNs. DSNNs achieve comparable accuracy on large networks and complex datasets.  相似文献   

12.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

13.
Recently, deep neural networks, which include convolutional neural networks (CNNs), have been widely applied to acoustic scene classification (ASC). Motivated by the fact that some simplified CNNs have shown improvements over deep CNNs, such as Visual Geometry Group Net (VGG-Net), we have figured out how to simplify the VGG-Net style architecture to a shallow CNN with improved performance. Max pooling and batch normalization are also applied for better accuracy. With a series of controlled tests on detection and classification of acoustic scenes and events (DCASE) 2016 data sets, our shallow CNN achieves 6.7% improvement, and reduces time complexity to 5%, compared with the VGG-Net style CNN.  相似文献   

14.
深度神经网络在多种模式识别任务上均取得卓越表现,然而相关研究表明深度神经网络非常脆弱,极易受到对抗样本的攻击。且人眼不易察觉的对抗样本还具有迁移性,即针对某个模型生成的对抗样本能够使得其他不同的深度模型也产生误判。主要研究提升对抗样本的迁移性,提出了基于PID控制优化器的快速梯度符号方法(PIDI-FGSM),用于替代原有的基于动量优化器生成方法(MI-FGSM)。不同于MI-FGSM只累加一阶动量项,PIDI-FGSM同时考虑当前梯度、一阶动量项和一阶微分动量项。此外,PIDI-FGSM经过相应变化后,可与现有其他对抗样本生成方法相结合,在不需要额外运行时间和运算资源的情况下大大提高了对抗样本对于黑盒防御模型的攻击成功率。在ImageNet数据集上的实验表明,结合了PIDI-FGSM的对抗样本生成方法能够更快速地生成攻击成功率更高的对抗样本。通过提出最强攻击组合NI-TI-DI-PIDM2,对6个经典黑盒防御模型的平均攻击达到87.4%的成功率,比现有的动量方法提高3.8%,对3个较为先进的黑盒防御模型的平均攻击达到80.0%的成功率,比现有的动量方法提高4.9%。  相似文献   

15.
针对现有深度学习模型在情绪识别方面种类少且准确率低的问题,采集并建立了脑电波信号数据集,提出了一种基于CNN的脑电波的智能多情绪识别模型,利用多层卷积神经网络提取脑电信号情感特征,在批归一化层和激活函数中引入非线性特性,构建了两层全连接神经网络,实现了情绪特征中积极、中性和悲伤的分类。实验结果表明,提出的模型复杂度低且分类准确率达到了81.43%,明显高于SVM、LSTM、VGGNet模型,证明了该模型的简洁性和高效性。  相似文献   

16.
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注.基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点.在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性.针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比.实验结果表明,LSTM-DNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%.  相似文献   

17.
面向训练语料有限的语音识别任务,基于动态时间规整(dynamic time warping, DTW)算法对俄语语音进行识别。首先,以跨语言标注的语音语料为资源基础,研究融合音字转换和机器翻译的语音识别方法。其次,结合俄语语音特点,以元音为中心设置动态门限阈值,实现精确至音节的端点检测,识别速度提高了34.4%,准确率提高了14%。然后,综合时域、频域分析,提取反映语音静态特征和动态变化的参数模板。另外,引入全局限制和早弃策略改进DTW算法,避免病态匹配,缩小计算规模,使速度提高了19.7%,准确率提高了4.8%。在俄语短指令语音集上做五折交叉验证,识别准确率达到74.9%。  相似文献   

18.
针对传统卷积神经网络严重依赖数据量的问题, 提出一种基于均值迭代阈值分割法和卷积神经网络的图像识别算法, 通过均值迭代阈值分割法过滤图像背景, 并基于AlexNet构造新的卷积神经网络. 与其他常用的卷积神经网络进行对比实验结果表明, 在样本数量不足的图像识别任务中, 该算法识别效果较理想, 与其他卷积神经网络相比, 具有更高的识别准确度、 更低的识别误差和更快的收敛速度.  相似文献   

19.
针对传统卷积神经网络严重依赖数据量的问题, 提出一种基于均值迭代阈值分割法和卷积神经网络的图像识别算法, 通过均值迭代阈值分割法过滤图像背景, 并基于AlexNet构造新的卷积神经网络. 与其他常用的卷积神经网络进行对比实验结果表明, 在样本数量不足的图像识别任务中, 该算法识别效果较理想, 与其他卷积神经网络相比, 具有更高的识别准确度、 更低的识别误差和更快的收敛速度.  相似文献   

20.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号