首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于两步策略的中文短文本分类研究   总被引:3,自引:0,他引:3  
为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能.  相似文献   

2.
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱.针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法.模型采用BERT预训练语言模型进行文本字向量表示,输...  相似文献   

3.
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本进行初步分词,然后再利用传统词典分词方法对初步分词结果进行修正,从而完成分词工作。针对中文短文本的特点,该方法在条件随机场的标记选择和特征模板编写上做了相应优化。测试结果表明,该方法改善了传统的基于词典的分词法因为未登录词和交叠歧义而产生的准确率和召回率下降的问题,并在Sighan bakeoff 2005的四个语料测试集中均取得了0.95以上的FScore。实验证明:该方法适合应用于信息检索领域的中文短文本分词工作。  相似文献   

4.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算...  相似文献   

5.
针对现有的敏感信息识别是基于敏感关键词匹配方式判断的,准确度不是很高,且具有较高的误检率等问题,提出了敏感关键词与情感极性协同分析的敏感信息识别方法。在真实数据集上,利用监督学习的方式对微博的情感极性进行了度量,得到具体的情感极度,并将文本分为正情感极性和负情感极性两类。通过定义色情、暴力、违禁、邪教、反动等5大类2 639个敏感关键词和在数据集里面所呈现的Zipf分布特性,发现含有负情感极性的微博内容具有较高的敏感性,由此深入研究了敏感关键词对情感极性的动力因素,构建了含有情感极性因素的敏感度模型,提出了敏感信息的判别方法,敏感信息检测的准确率由传统方法的31.25%提高到了58.75%,召回率则由95%提升到96%,综合指标F值从47.0%提升到了72.3%。  相似文献   

6.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

7.
提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果.  相似文献   

8.
基于神经网络的语音识别研究   总被引:3,自引:0,他引:3  
由于具有良好的抽象分类特性,神经网络现已应用于语音识别系统的研究和开发,并成为解决识别相关问题的有效工具.为解决一般语音识别系统准确率较低的问题,本文分别给出了由循环神经网络(RNN)和多层感知器(MLP)组成识别模块的两种语音识别系统,并对二者识别的准确性进行了比较.介绍了特征提取模块的主要工作步骤并讨论了组成识别模块的上述两种神经网络结构.其中,特征提取模块利用线性预测编码(LPC)倒谱编码器,把输入语音翻译成LPC倒谱空间中的曲线;而识别模块完成对某个特征空间曲线之间的联系和单词的识别.实验结果表明,MLP方法准确率高于RNN方法,而RNN方法准确率可达85%.  相似文献   

9.
基于神经网络的货币识别研究   总被引:1,自引:0,他引:1  
货币识别研究的重点在于识别的准确和速度.采用结构相对简单的前馈神经网络,选取合适的货币采样特征为网络的输入特征,使用尺度共轭梯度(SCG)算法对网络进行快速高效训练,实现对货币的快速、准确识别.实验结果表明,该方案是可行、有效的.  相似文献   

10.
提出基于预训练语言模型的医疗命名实体审核算法.首先借助BERT预训练模型对短文本数据进行句子层面的特征向量表示;然后通过构建循环神经网络和迁移学习模型实现短文本分类;最后在参数相同的条件下,将获得的文本特征向量分别输入到循环神经网络和迁移学习模型中进行训练.实验结果表明,与迁移学习相比,基于BERT和循环神经网络模型的...  相似文献   

11.
如今随着互联网的发展,数据呈现的方式大不相同,然而知识图谱的出现,给人们提供了一种更好地组织、管理和理解海量信息的能力.知识图谱质量的高低与实体以及实体之间的关系存在密不可分的关系,从实体角度出发,研究实体识别方法.如今大多数深度学习模型对实体识别效果不错,但在语义信息方面没有考虑上下文信息,并且模型体积庞大,参数数量多,导致模型预测结果与真实结果误差大,能耗高.提出了一种ELECTRA模型与神经网络模型结合来进行命名体识别的方法,该方法降低能耗以及提升训练速度,同时又提高了实体识别的准确率等.该组合模型分为三块:首先对ELECTRA模型进行改进,输入文本进行[cls]以及[seq]处理,避免实体边界模糊问题.然后进行随机15%的Mask机制,经生成器预测,再经判别器判别,形成字向量.其次将字向量引入双向长短期记忆网络BiLSTM中,进行上下文语义增强后将句子序列打分.最后通过条件随机场CRF层找到最优的序列标签.实验结果表明,该方法在医疗语料库进行实体识别时,准确率为97.94%、召回率为95.41%、F1值为95.44%、精确率为95.46%,与已有的方法相比,提出的方法效果提升明...  相似文献   

12.
基于空间短文本对象的检索策略   总被引:1,自引:0,他引:1  
针对传统空间文本检索策略中的效率和有效性问题, 对如何从给定的空间文本对象集合中快速有效地检索出top-k个近似结果进行研究。基于一个空间检索的通用框架, 提出一种基于空间文本对象的快速策略, 用于满足用户对效率与有效性的要求。实验结果证明该策略优于现有方法。  相似文献   

13.
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。  相似文献   

14.
15.
中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。  相似文献   

16.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

17.
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%.   相似文献   

18.
为提高岩性识别的精度,引入SSA算法解决BP神经网络的性能受连接权值cj、ωij和连接阈值ε、θj的影响较大的问题,对网络连接权值以及阈值进行选择性优化,提出一种基于SSA-BP的岩性识别方法.将声波、补偿中子、微电极2 m梯度、井径、4 m梯度、2.5 m梯度、感应电导、浅侧向和微电极差等9项指标输入SSA-BP算法...  相似文献   

19.
基于神经网络的手势识别技术研究   总被引:1,自引:0,他引:1  
以数据手套为基础,分析了手形的几何关系,建立了虚拟手的模型,由数据手套的数据接口获取各指节的曲伸角度,建立手势标准样本库,并提出了基于BP神经网络的手势识别方法,用手势标准样本加以训练,使其具备识别手势的功能,并利用VC 编程实现BP神经网络,用Matlab验证实验结果的正确性.  相似文献   

20.
条形码(barcode)识别是实现信息化管理的重要一环,在仓储、物流、超市收费、商品监督管理等方面有广泛的应用前景,但无法对其建立准确的数学模型。针对此问题,运用能够模拟人类思维的学习向量量化(Learning Vector Quantization,LVQ)神经网络对条形码进行识别,在Matlab平台中建立LVQ神经网络识别器。通过训练、测试,验证了LVQ神经网络识别器能够高效准确地识别条形码。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号