期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《清华大学学报(自然科学版)》2016,(11)

近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。相似文献

2.

基于卷积循环神经网络的语音逻辑攻击检测

杨海涛王华朋楚宪腾牛瑾琳林暖辉张琨瑶《科学技术与工程》2022,22(18):7937-7944

语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network, CNN)部分可以进行下采样,循环神经网络(recurrent neural network, RNN)部分解决语音中的时序问题,深度神经网络(deep neural network, DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstr... 相似文献

3.

CWGAN-DNN：一种条件Wasserstein生成对抗网络入侵检测方法

下载免费PDF全文

贺佳星王晓丹宋亚飞来杰《空军工程大学学报(自然科学版)》2021,22(5):67-74

针对现有的基于机器学习的入侵检测系统对类不平衡数据检测准确率低的问题,提出一种基于条件Wasserstein生成对抗网络(CWGAN)和深度神经网络(DNN)的入侵检测(CWGAN-DNN).CWGAN-DN N通过生成样本来改善数据集的类不平衡问题,提升对少数类和未知类的检测效率.首先,通过变分高斯混合模型(VGM)对原始数据中的连续特征进行处理,将连续特征的高斯混合分布进行分解;然后利用CWGAN学习预处理后数据的分布并生成新的少数类数据样本、平衡训练数据集;最后,利用平衡训练集对DNN进行训练,将训练得到的DNN用于入侵检测.在NSL-KDD数据集上进行的实验结果表明:利用CWGAN生成的数据进行训练,DNN的分类准确率和F1分数提升了5％,AUC下降了2％;与其他类均衡方法相比,CWGAN-DNN的准确率至少提升了3％、F1分数和AUC提升了1％. 相似文献

4.

基于DNN-LSTM的VAD算法

张雪英牛溥华高帆《清华大学学报(自然科学版)》2018,(5)

基于深度神经网络(deep neural network,DNN)的语音活动性检测(voice activity detection,VAD)忽略了声学特征在时间上的相关性,在带噪环境下性能会明显下降。该文提出了一种基于深度神经网络和长短时记忆单元(long-short term memory,LSTM)的混合网络结构应用于VAD问题。进一步对语音帧的动态信息加以分析利用,同时结合DNN-LSTM结构使用一种基于上下文信息的代价函数用于网络训练。实验语料基于TIDIGITS语音库,使用Noisex-92噪声库加噪。实验结果表明:在不同噪声环境下基于DNN-LSTM的VAD方法比基于DNN的VAD方法性能更好,新的代价函数比传统的代价函数更适用于该文提出的算法。相似文献

5.

多特征全卷积网络的地空通话语音增强方法

高登峰杨波杨红雨刘洪《四川大学学报(自然科学版)》2020,57(2):289-296

为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能. 相似文献

6.

基于多GPU的深层神经网络快速训练方法

薛少飞宋彦戴礼荣《清华大学学报(自然科学版)》2013,(6):745-748

近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。相似文献

7.

关键词检测系统中废料模型技术的研究

马晓梅李雪耀张汝波徐东《应用科技》2006,33(4):54-56

关键词检测是语音识别中一个重要的研究方向．关键词检测技术的重点之一就是代表非关键词语音的模型，不论识别系统的方法怎样，大部分是采用废料模型的，而废料模型的结构和类型对整个系统的性能有很大的影响．提出了一种基于音节格的废料模型．实验表明，与传统的基于音素类的废料模型相比，关键词的检测率有了很大的提高．相似文献

8.

基于词表树结构填料模型的关键词检测技术

马晓梅《科学技术与工程》2011,11(13):2967-2970,2976

关键词检测技术是语音识别领域中一个重要的研究方向。对于关键词检测系统来讲,若要求达到高检测率的同时希望虚报率较低,仅仅建立关键词模型是不够的。填料模型的结构和类型对整个系统的性能相对会有更大的影响。对于非特定说话人的连续语音中出现的非关键词语音提出建立一种新的有效的基于词表树结构的填料模型。实验结果表明,与传统的基于音节格和音节聚类的填料模型相比,关键词的检测率有了很大的提高,系统的综合性能较好,具有一定的可行性和实用性。相似文献

9.

基于后验概率词格的汉语自然对话语音索引 总被引：1，自引：0，他引：1

孟莎余鹏刘加《清华大学学报(自然科学版)》2008,48(Z1):673-677

语音索引是语音检索任务的关键问题之一.该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法.采用后验概率形式表示的词格取代最优路径进行索引.根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9％、4.4％和7.4％.根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3％(用LVSCR得到的)和66.9％(用音节识别器得到的)提高到78.8％. 相似文献

10.

基于非负矩阵分解和长短时记忆网络的单通道语音分离

崔建峰邓泽平申飞史文武《科学技术与工程》2019,19(12)

为了解决语音分离中非负矩阵分解(non-negative matrix factorization,NMF)、深度神经网络(deep neural network,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(long short-term memory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptual evaluation of speech quality,PESQ)有明显提升,其最大值超过3. 1,获得良好的分离效果。相似文献