首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.  相似文献   

2.
BERT(Bidirectional Encoder Representations from Transformers)和神经网络模型相结合的方法目前已被广泛应用于中文医疗命名实体识别领域。但BERT在中文中是以字为粒度切分的,没有考虑到中文分词。而神经网络模型往往局部不稳定,即使微小的扰动也可能误导它们,导致模型的鲁棒性差。为了解决这两个问题,提出了一种基于RoBERTa(A Robustly OptimizedBERTPre-trainingApproach)和对抗训练的中文医疗命名实体识别模型(ATRBC)。首先,使用RoBERTa-wwm-ext-large(ARobustlyOptimizedBERTPre-training Approach-whole word masking-extended data-large)预训练模型得到输入文本的初始向量表示;其次,在初始向量表示上添加一些扰动来生成对抗样本;最后,将初始向量表示和对抗样本一同依次输入双向长短期记忆网络和条件随机场中,得到最终的预测结果。在CCKS 2019数据集上的实验结果表明,AT-RBC模型的F1值达到了...  相似文献   

3.
针对传统基于特征的中文分词模型中,参数相对于训练数据过多而难以准确估计特征权值这一问题,提出了一种基于特征嵌入的神经网络方法.嵌入方法将特征转化为低维实值向量,能有效降低特征维度.另外,为了增强模型的性能,给出了一种学习速率线性衰减方法.研究了正则项的方法来增强模型的泛化能力.实验表明:文中提出的模型可以提高中文分词问题的求解效率.  相似文献   

4.
目前,许多研究者将神经网络模型应用到中文分词任务中,其表现虽然优于传统的机器学习分词法,但未能充分发挥神经网络自动学习特征的优势,且未使用词向量信息.针对该问题,提出基于门限卷积神经网络(gated convolutional neural networks,GCNNs)的中文分词法,并利用词嵌入方法将词向量融入模型中,使该模型在不需要大量特征工程的情况下可以自动学习二元特征.通过在简体中文数据集(PKU、MSRA和CTB6)上进行实验,结果表明,与以往的神经网络模型相比,在不依赖特征工程的情况下,该模型仍能取得较好的分词效果.  相似文献   

5.
目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升.  相似文献   

6.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算...  相似文献   

7.
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.  相似文献   

8.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

9.
基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型.针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取.在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%.实验结果证明了本文模型在缓解错误传播问题的有效性.  相似文献   

10.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

11.
为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字向量表形成字向量,并利用Jieba分词获取语料中字的信息特征向量;最后组合字向量和字信息特征向量,输入到BLSTM-CRF深层神经网络中。实验结果证明,该模型面向中文领域命名实体能够较好的进行识别,F1值达到91.86%。  相似文献   

12.
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。  相似文献   

13.
提出了一种采用神经网络提高EIT成像质量的方法.首先,根据电阻抗成像原理,构建了208-10-208三层神经网络.然后,将实验平台上采集的实测数据分为训练数据和成像数据,将根据仿真模型求解得到的仿真数据作为期望值,利用训练数据对神经网络进行训练,获得神经网络参数,建立神经网络模型;将成像数据作为训练好的神经网络的输入,利用神经网络的输出数据重建图像.最后,采用6项指标对神经网络训练前后的重建图像效果进行评价.结果表明:采用神经网络后的图像在相关系数、结构相似度、相对误差、位置误差、外形形变、瞬时震荡6项指标上均有显著提高.  相似文献   

14.
结合自然语言处理技术,采用卷积神经网络算法训练SQL注入检测模型,主要包括文本分词处理、提取文本向量和训练检测模型三个部分。实验结果与BP神经网络算法结果对比,发现基于卷积神经网络的SQL注入检测模型仅需提取用户输入的信息,就可以对攻击行为进行检测,具有很强的预测能力,同时针对变异SQL注入攻击具有良好的识别能力。  相似文献   

15.
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。  相似文献   

16.
利用3层BP神经网络对气流床粉煤气化炉进行模拟研究.以Gibbs自由能最小化方法建立粉煤气化炉数学模型的模拟结果作为BP神经网络训练数据,训练后的BP神经网络模型对模拟数据的预测准确度较好.以Shell粉煤气化炉和国内首套粉煤加压气化中试装置上的实际生产数据作为BP神经网络的训练数据,训练后的BP神经网络模型能预测实际生产数据.  相似文献   

17.
针对目前汉语分词系统中BP算法收敛速度慢等难题,本文将基于遗传的BP神经网络算法用于汉语分词模型,此模型结合了遗传算法和BP网络的优点.实验结果表明:该优化模型完全达到了汉语分词要求,并且在分词速度上也明显优于传统的BP神经网络,具有高精确性、收敛速度快等特点.  相似文献   

18.
中文分词是信息检索工作的一项先决任务。随着大数据时代的到来,信息检索工作对于中文分词准确率和召回率的要求也不断提高。该文提出了一种针对中文短文本的分词方法。该方法首先利用机器学习中的条件随机场模型对待处理的中文短文本进行初步分词,然后再利用传统词典分词方法对初步分词结果进行修正,从而完成分词工作。针对中文短文本的特点,该方法在条件随机场的标记选择和特征模板编写上做了相应优化。测试结果表明,该方法改善了传统的基于词典的分词法因为未登录词和交叠歧义而产生的准确率和召回率下降的问题,并在Sighan bakeoff 2005的四个语料测试集中均取得了0.95以上的FScore。实验证明:该方法适合应用于信息检索领域的中文短文本分词工作。  相似文献   

19.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

20.
根据脱机中文签名的特点,提出了一种用基于遗传算法的小波神经网络进行脱机中文签名鉴定的方法.基于遗传算法的小波神经网络模型结合了遗传算法的全局搜索能力和小波神经网络快速高精度的特点,克服了梯度下降法易陷入局部极小和引起振荡效应等缺点.该模型用遗传算法对小波神经网络的各参数进行前期优化训练,再用梯度下降法对参数进行二次优化.实验结果表明,将此模型用于脱机签名鉴定系统,与单独采用BP网络或小波神经网络相比,性能有明显的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号