首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于神经网络的语音识别研究   总被引:3,自引:0,他引:3  
由于具有良好的抽象分类特性,神经网络现已应用于语音识别系统的研究和开发,并成为解决识别相关问题的有效工具.为解决一般语音识别系统准确率较低的问题,本文分别给出了由循环神经网络(RNN)和多层感知器(MLP)组成识别模块的两种语音识别系统,并对二者识别的准确性进行了比较.介绍了特征提取模块的主要工作步骤并讨论了组成识别模块的上述两种神经网络结构.其中,特征提取模块利用线性预测编码(LPC)倒谱编码器,把输入语音翻译成LPC倒谱空间中的曲线;而识别模块完成对某个特征空间曲线之间的联系和单词的识别.实验结果表明,MLP方法准确率高于RNN方法,而RNN方法准确率可达85%.  相似文献   

2.
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.  相似文献   

3.
针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID).首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.  相似文献   

4.
目的提出一种基于8导脑电模糊能量特征提取的多分类支持向量机混合诊断模型。方法通过计算8导脑电的能量并转换为模糊特征向量,将模糊特征向量输入到多分类的支持向量机中。训练和测试数据样本来自西京医院癫痫中心的60个临床监护病例。结果该方案的平均分类准确率可达80%以上,远高于传统的医师主观判断的准确率;对临床最常见的部分性发作和全身性发作的分类准确率可达90%左右。结论提出的方案可实现对癫痫不同类型的识别。  相似文献   

5.
提出了一种基于卷积神经网络(CNN)的人眼检测及眼睛睁闭状态分类的方法.首先,训练1个用于检测人眼中心点的卷积神经网络,当输入人脸图像时,网络能快速检测到双眼中心点,并输出中心点对应的坐标值;根据中心点坐标值可以确定眼睛区域,得到人眼图像;然后将人眼图像输入到1个用于判断眼睛睁闭状态的分类网络,得到眼睛的睁闭状态.试验结果表明:本文提出的方法有效可行,眼睛定位的准确率可达96%,状态分类准确率可达97.07%.相比传统方法,该方法具有较好的鲁棒性和应用前景.  相似文献   

6.
针对语音/音乐分类过程中由于特征参数提取过多造成的维数灾难及分类准确率有待提高等问题,提出了一种基于过零率及频谱的语音/音乐分类算法.该算法在对语音及音乐2类信号进行端点检测及分段预处理后,结合每一音频段的过零率和频谱幅值特性进行分类识别处理,最后通过计算被判别为语音或音乐的概率实现分类.实验结果表明,此算法在音频分类中较同样最多只提2个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%.证明了该算法不仅计算量小,且分类准确率也有所提高.  相似文献   

7.
为解决传统音乐情感分类特征单一,导致训练效果差的问题,提出了一种多模态注意力融合网络模型,首先将执行情感分类使用的歌词和音频分离,将上下文特征提取方法与分类器相结合,从而提高特征提取效率;其次通过注意机制融合多模态特征,从而加快模型训练效率及情感分类准确率;接着提出了一种自适应孤立森林噪声方法增强模型对不均衡样本的适应性,并在一定程度上缓解模型过拟合问题.最后,将模型与LSTM、GRU、BI-LSTM、BI-GRU等模型进行仿真比较,结果表明所提模型性能最优,情绪分类准确率可达96.46%.  相似文献   

8.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

9.
对不同种类噪声的分类处理,可以提高噪声环境下语音信号处理的性能.为了能够准确地区分各类噪声,提出了一种基于Bark域噪声能量分布特性的噪声分类方法.通过将噪声能量从均匀时频空间映射到Bark空间,构造了一个能够有效区分各种噪声的22维特征向量,并使用支持向量机(SVM)进行模型训练和噪声分类.实验结果表明:所提出的噪声分类方法具有非常高的分类准确率,对用于实验的两种噪声数据集的平均分类准确率分别为99.50%和93.44%.  相似文献   

10.
有1份仅含A类与B类的训练集,与1份包含不止这2个类别的测试集,如何对测试集中的样本进行分类?针对这个问题,本文提出3种基于SVM方法和最小包围球方法(minimum enclosing ball, MEB)的新类别分类方法。这3种新类别分类方法不仅解决了SVM不能正确判别新类别的缺点,而且在实际数据分析中获得了较好的效果。本文使用乳腺癌分子分型数据进行分析,最终样本分类准确率可达90%以上,新类别样本分类正确率可达99%以上。  相似文献   

11.
12.
提出一种新的可用于说话人识别的径向基函数网络(RBFN)阵列.RBFN网设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最优权重,该方法并不能得到最优分类效果.使用Fisher目标函数,替代RBF中的误差目标函数来求取最优权重,用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法提高了RBF分类能力,比传统的RBF、算法以及ROLS算法具有更高的识别率,并在识别效果接近GMM方法的情况下计算量大幅度减少。  相似文献   

13.
基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal component analysis,PCA)对MFCC进行降维优化、粒子群优化算法(particle swarm optimization,PSO)对KELM初始输入参数进行优化开展基于PSO和PCA融合优化KELM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过,并与MATLAB语音工具箱提供的神经网络和支持向量机说话人识别算法做了性能对比分析。仿真研究结果表明:通过PSO和PCA融合优化改进的KELM,初始输入参数可以任意确定并且不需要迭代更新,并能有效克服因初始权重随机确定导致的性能不稳定,进一步提高分类匹配和运算速度,具有很好的推广应用价值。  相似文献   

14.
针对单一声学特征和k-means算法在说话人聚类技术中的局限性,为了更好地表达说话人的个性信息并提高说话人聚类的准确率,将特征融合和AE-SOM神经网络应用于说话人聚类中,提出一种改进的说话人聚类算法.该算法通过对语音信号特征分析,将MFCC特征参数和LPCC特征参数相结合,从而完善说话人的个性信息.并在k-means的基础上增加AE-SOM神经网络,利用该网络实现输入特征的降维、说话人数的判定和聚类中心的选取,从而弥补k-means算法的缺陷.仿真实验表明两种声学特征融合之后,改进的聚类算法可有效地提高说话人聚类的准确率.  相似文献   

15.
针对经典支持向量机对非目标样本没有拒绝能力,且应用于说话人辨认时存在不可分区域的问题,提出一种基于模糊C均值聚类和模糊支持向量机的多级模糊说话人辨认方法。首先利用模糊C均值聚类方法对特征向量进行聚类,减少样本的数目,加快模糊支持向量机训练速度。最终由FSVM得出判决结果。并通过仿真实验验证了该方法的有效性。  相似文献   

16.
飞机驾驶员在飞行过程中有各种各样的说话方式,如带情感的对话、快速与慢速、大声与小声等.并且在飞行的状态下还需要承受物理与心理压力,对话语音还会产生变异,如果不做任何处理,直接用于传统的说话人识别系统以及语音识别系统来处理,性能会比较差.因此,本文对识别飞行员的说话方式(style)这一副语言信息进行了研究,以辅助后续的语音识别系统以及说话人识别系统.实验数据库包含了6 925个样本,实验中提取了384维声学特征,比较了支持向量机SVM不同核函数的分类能力.实验表明,采用高斯径向基函数的SVM具有最好的性能,平均准确率达到91.62%.   相似文献   

17.
最大后验估计和加权近邻回归结合的说话人自适应方法   总被引:1,自引:0,他引:1  
提出了一种最大后验 (m aximum a posteriori,MAP)估计和加权近邻回归 (weighted neighbors regression,WNR)相结合的说话人自适应方法。在 MAP自适应中 ,只有自适应数据对应的模型参数可以得到调整。针对这一缺点 ,提出一种基于变换的模型插值 /平滑方法 - WNR,利用模型近邻信息和 MAP自适应结果 ,建立距离加权的回归模型 ,对没有自适应数据的模型完成模型调整。实验证明 ,该方法可以有效地提高 MAP自适应的速度。在自适应数据为 10句时 ,音节误识率降低近 15 % ;而在自适应数据为 2 5 0句时 ,误识率降低 5 0 %以上。此外 ,证明了向量域平滑 (vectorfield sm oothing,VFS)是 WNR方法的一种退化的特例  相似文献   

18.
以丹江口水库库区的典型地段为实验区,在对遥感影像进行主成分融合的基础上,采用分区分类法对影像进行分类. 结果证实与传统的分类方法相比,采用该分类方法后,遥感影像的分类精度有较大幅度的提高,整幅影像的分类精度提高了近12个百分点,特别是在分区效果较好的西北山地区和东南丘陵区,分类精度提高的更多,达到16个百分点左右.  相似文献   

19.
基于话者分类和HMM的话者自适应语音识别   总被引:2,自引:1,他引:2  
本文提出了一种基于话者分类和HMM的话者自适应语音识别方法,采用对参考话者聚类、并按话者类分别建立HMM模板的策略,对于新注册的用户,系统只需利用其极少量的语音,便可将与之最相近的一类模板指派给新用户,再采用基于谱空间映射的两级自适应方法,使系统自适应到用户的模式下工作.这种方法既提高了识别性能,又降低了自适应的难度,还有利于HMM的建立.讨论了话者分类数和自适应语音数据对话者自适应效果及识别性能的影响,提出了一种在自适应语音数据不足情况下仍具有较好自适应效果的基于FVQ的码本自适应改进算法,该算法还具有对自适应字表不敏感的特点.  相似文献   

20.
针对BIC说话人改变检测中检测精度低,计算量大的问题,本文提出了一种快速准确的改进BIC说话人改变检测算法:通过提高可测度的方法来提高检测精度;在分析窗长度增加时,通过增加分析窗内第一个数据窗的长度来降低计算量;在寻找潜在改变点时,只在新增加的分析窗内计算和寻找;通过限制分析窗内第一个数据窗最大值的方法来解决长时间没有说话人改变点计算量不断增大的问题。实验结果表明该算法在不影响说话人改变检测的总准确率的基础上提高了检测精度,节省了计算量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号