首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
口语对话系统中,集外词的存在会引起很多识别错误,为了有效地发现并拒绝集外词,提高系统性能,研究利用置信度打分进行语音确认的方法,发现并拒绝识别错误。提出上下文相关的置信度特征,充分考虑当前待确认词与其前序词和后序词之间的相关性。实验结果表明:上下文相关的置信度特征能够很好地提高拒识性能,对符合识别文法的句子,错误拒绝率为2.5%或5%时,对比没有使用上下文相关的置信度特征时,错误接受率分别下降了29%和36%;基于置信度打分的语音确认策略在拒识性能上优于系统已有的在线垃圾模型。  相似文献   

2.
提出一种融合多模型和高置信度词典的事件线索识别方法,将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务,进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,提高事件真伪性识别的性能。实验结果显示,针对触发词识别和事件真伪性识别任务,与仅使用最大熵模型相比,所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%,提高事件真伪性识别的性能1.69%。  相似文献   

3.
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.  相似文献   

4.
传统的决策层融合作为识别系统最末端的融合层次,具有信息量不足的缺点,对于各模态分类性能差异较大的系统,识别率低且可靠性差。提出了一种基于特征距离信息的决策层融合方法,应用于包含虹膜、手掌静脉和手指静脉的多模态生物特征识别系统。以置信度作为权重,通过权重来探索不同模态生物特征识别的性能差异,实现了有效特征信息的提取,并且提高了系统的抗干扰能力。该方法充分考虑了权重因子与特征距离信息和模态分类性能参数之间的复杂关系,将模态的决策偏好通过置信度转化为定量表征,不仅使各模态权重因子的求解更具科学性,而且提高了识别系统在复杂情境下的自适应能力。实验结果表明,该融合方法的识别精度与抗干扰能力优于其他决策层融合算法。  相似文献   

5.
针对中文细粒度隐式篇章关系识别进行研究。考虑细粒度篇章关系的方向性特点, 提出一种基于远距离监督的特征学习算法。该算法使用远距离监督的方法, 自动标注显式篇章数据, 然后利用词与连词之间的相对位置信息, 训练各个词的词表达, 将词的修辞功能以及关系的方向性编码到密集词表达中, 将这样的词表达应用到细粒度隐式篇章关系分类器。实验结果表明, 在细粒度隐式篇章关系识别任务中, 该方法的分类准确率达到49.79%, 比未考虑篇章关系方向性的方法有较大程度的提高。  相似文献   

6.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

7.
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%~2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。  相似文献   

8.
针对词袋算法(BOW)忽略局部特征空间关系的弱点,本文提出了基于特征共生矩阵的图像表达方法。该方法利用局部特征的空间共生统计代替直方图统计,充分考虑了局部特征的空间关系,增强了对图像的表达能力。实验利用标准的景物15数据库,在灰度、尺度不变特征变换(SIFT)和局部二进制模式(LBP)3个特征空间,比较了本方法、词袋法以及空间金字塔方法(SPM)的图像分类性能,结果表明本方法比词袋法的图像分类性能分别高出21.2%、6.4%、4.67%,在灰度及LBP空间,本文方法比空间金字塔法分别高出17.07%、3.87%。  相似文献   

9.
定义了三个特征量,通过大量景像匹配试验,研究了景像匹配置信度与三个特征量之间的统计关系模型;根据建立的模型,利用改进的Dempster-Shafer组合规则对景像匹配置信度进行融合计算.试验结果表明该方法正确,有效解决了景像匹配置信度的定量计算问题.  相似文献   

10.
提出一种基于统计机器翻译的思想抽取评价对象与评价词的方法。该方法利用词对齐模型抽取评价对象与评价词之间的关系,并结合词共现信息等特征来估计两者关系的强度。建立一张二分图刻画评价关系,并加入领域相关性度量,利用随机游走算法迭代计算候选评价对象与评价词的置信度。在COAE2011任务3的语料上进行试验验证。结果表明,利用词对齐模型抽取评价对象与评价词可以有效提高准确度,抽取出更多的评价对象与评价词。  相似文献   

11.
为提高固定单目垂直摄像方式下人头目标识别的正确率,提出一种新的头部目标区域获取方法。首先给出基于Mean-shift的人头目标分割算法,由于综合考虑了像素点在空间信息和色彩信息的联系,能够较为完整地分割出人头部目标候选区域。在此基础上,基于运动人头区域的轮廓具有近似圆形以及人头发色具有聚类性2个关键特征,提出并建立了基于发色信息的头部区域评价模型和基于连通域边缘轮廓的头部目标评价模型来实现人头部目标区域的识别。实验结果表明,提出的算法能有效抑制光照的影响和消除与发色分布类似的伪目标,静态图像检测正确率约为89.4%。  相似文献   

12.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

13.
随着internet的发展,网上各种新词语的创建和发展也超过以往任何时候,新词语的自动识别一直是中信息处理中的一个热点研究课题,研究了网上新词语的自动识别技术,主要研究内容是利用初加工语料,采用分解策略将N元组候选词库的形成分为预处理、二元候选字段,三元候选字段、四元候选字段几个过程,降低了整体处理难度,提出了一种以规则剔除噪声词串和构词相结合的新词语的识别技术。  相似文献   

14.
视频特征的提取是行为识别方法中一个关键步骤,当视频场景中存在无关行人或者背景干扰时,提取的特征往往会包含较多的干扰信息,这将严重影响分类器的分类效果,进而影响行为识别准确率。针对这类问题,提出了一种基于显著性区域的红外行为识别方法。该方法对视频序列提取光流运动历史图(optical flow motion history image, OF-MHI)特征,获取视频序列的运动信息,此步骤旨在消除图像背景及静止目标干扰。利用类别激活映射(class activation map, CAM)方法进一步消除运动目标干扰,获得兴趣目标显著性区域,进而获得显著性区域特征图。输入卷积神经网络(convolutional neural network, CNN)提取最终特征,并采用支持向量机(support vector machine, SVM)获得识别结果。与传统方法相比,实验结果表明,该方法有效地提升了识别准确率。  相似文献   

15.
基于三维动态步态的身份识别方法仿真   总被引:1,自引:1,他引:0  
根据步态识别人身份的研究中,由于二维步态特征无法完全表示人体特有的动态步伐特征,导致识别受限。提出基于三维动态步态的身份识别方法,以连续步态图像帧为单位,通过立体视觉技术从二维图对不同采样时刻的运动人体三维步态轮廓信息进行提取,提取人体步态三维轮廓后,对其进行无关区域分割,获取和人体行走相关的步态特征。通过构建步态特征变换的几何模型,给出动态三维步态特征的转换过程,依据欧氏距离度量,根据结果实现身份识别。仿真实验结果表明,所提方法具有很高的识别精度和识别效率,性能较静态方法有较大的改善。  相似文献   

16.
基于互信息的宋史语料库词表的提取   总被引:2,自引:0,他引:2  
基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.  相似文献   

17.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

18.
提出一种基于二级组合分类器的汉字手写体识别方法,首先提取汉字的整字特征和笔划特征;进行单字识别的过程中,GA-BP笔划分类器起着对汉字识别的主导作用,当写入汉字出现连笔、字形变化导致系统产生拒识情况时,采用隐马尔可夫整字分类器作为辅助去提高整体的识别率.  相似文献   

19.
目前的技术不能使单字识别系统的识别率达到100%,单字识别系统会产生错判和拒判。因此,将满文中单词识别系统的识别信息和满文的词组信息有机的结合起来,建立满文词组和待定词集统计信息库,采用基于统计的隐马尔可夫模型的方法,利用Viterbi动态规划法求最佳路径,对满文的单字识别输出进行后处理,可以有效的提高识别系统的识别率。实验表明,单字识别系统的识别率越高,后处理的纠错能力越强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号