首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
为解决现有中文字向量表征方法中字形特征利用不充分的问题,利用矢量图形的尺度不变性,提出了一种面向汉字矢量图形特征的字向量 (scalable vector graphics to vector,SVG2vec)表征方法。预处理阶段将汉字像素图像转化矢量图形,生成字形矢量坐标对序列;特征学习阶段采用双向循环神经网络 (Recurrent Neural Network, RNN)和自回归混合密度循环神经网络构建矢量图形变分自编码器模型,利用模型学习汉字字形结构特征;向量生成阶段输入字形矢量坐标对序列到编码器,编码器将字形特征映射到概率连续分布空间,得到SVG2vec字向量。与已有字向量在不同层级任务上进行对比实验。结果表明:SVG2vec向量在命名实体识别、中文分词和短文本相似度计算实验中,F1均值比Word2vec、GloVe等未利用字形特征的向量分别提高了1.27、0.4,1.67、0.12,3.28、2.03,比glyph and meaning to vector (GnM2Vec)、Character-enhanced Word Embedding (CWE)等利用字形特征的向量分别提高了1.02、1.07,1.69、1.34,0.04、0.31,SVG2vec能更有效利用汉字字形特征。  相似文献   

2.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

3.
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理领域的热门方向之一.由于中文具有复杂的句式和语法,导致现有的神经网络提取的特征以及语义表示能力较差,从而影响中文关系抽取的性能.汉字是象形文字,其字形结构在一定程度上隐含了字义,为此提出了包含字形级别实体表示的BERT_BI-GRU_Glyph模型.模型中...  相似文献   

4.
针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明:与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F1值。  相似文献   

5.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著.  相似文献   

6.
为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字向量表形成字向量,并利用Jieba分词获取语料中字的信息特征向量;最后组合字向量和字信息特征向量,输入到BLSTM-CRF深层神经网络中。实验结果证明,该模型面向中文领域命名实体能够较好的进行识别,F1值达到91.86%。  相似文献   

7.
BERT(Bidirectional Encoder Representations from Transformers)和神经网络模型相结合的方法目前已被广泛应用于中文医疗命名实体识别领域。但BERT在中文中是以字为粒度切分的,没有考虑到中文分词。而神经网络模型往往局部不稳定,即使微小的扰动也可能误导它们,导致模型的鲁棒性差。为了解决这两个问题,提出了一种基于RoBERTa(A Robustly OptimizedBERTPre-trainingApproach)和对抗训练的中文医疗命名实体识别模型(ATRBC)。首先,使用RoBERTa-wwm-ext-large(ARobustlyOptimizedBERTPre-training Approach-whole word masking-extended data-large)预训练模型得到输入文本的初始向量表示;其次,在初始向量表示上添加一些扰动来生成对抗样本;最后,将初始向量表示和对抗样本一同依次输入双向长短期记忆网络和条件随机场中,得到最终的预测结果。在CCKS 2019数据集上的实验结果表明,AT-RBC模型的F1值达到了...  相似文献   

8.
由于中文语境的复杂性,存在语言边界不清晰、语境依赖、大量的近义词和一词多义等实体嵌套现象,直接套用英文语境中的先进模型效果不理想.针对中文医药词汇和语境的特点,在双向编码器表示预训练语言模型基础上引入自注意机制,结合BiLSTM+CRF模型进行中文命名实体识别,以增强词向量之间以及词向量内的字间关系.试验结果表明,本文模型在嵌套实体数据集上和非嵌套实体数据集上的F1值都较高,对中文医药语境具有较好的适应性.  相似文献   

9.
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers,Bert)和注意力机制的命名实体识别模型.模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field,CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体.实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%.Bert-BiL-STM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率.  相似文献   

10.
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。  相似文献   

11.
吴琴霞 《科学技术与工程》2013,13(15):4426-4432
目前汉字字形的生成仍是手工劳动和人工设计,加上汉字数据量巨大截止到现在没有一种合适的字形自动化生成工具可以使用。针对这一难题提出了一种基于字形描述库的汉字字形自动生成的技术。该技术先将汉字字形与字形描述库映射,以字形描述库为桥梁将汉字字形数据化,然后通过查找字形描述库找到汉字对应的骨架信息,提取笔画骨架。最后通过数据的逆向处理将笔画骨架信息还原为各种汉字字形,形成汉字字形库。  相似文献   

12.
针对汉字字形设计和开发的困难, 提出基于特征点抽象的汉字字形描述方法和汉字字形生成方法, 研究特征点、特征表达式、特征点的权值和权矢量等在汉字字形生成中的应用技术和方法, 并以点的生成为例, 设计汉字点笔画的生成算法, 并进行验证实验。实验结果证明该算法可靠并实用, 可切实提高汉字字形设计的效率, 为汉字其他笔画的生成提供一种解决方案。  相似文献   

13.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

14.
A local and global context representation learning model for Chinese characters is designed and a Chinese word segmentation method based on character representations is proposed in this paper.First,the proposed Chinese character learning model uses the semantics of local context and global context to learn the representation of Chinese characters.Then,Chinese word segmentation model is built by a neural network,while the segmentation model is trained with the character representations as its input features.Finally,experimental results show that Chinese character representations can effectively learn the semantic information.Characters with similar semantics cluster together in the visualize space.Moreover,the proposed Chinese word segmentation model also achieves a pretty good improvement on precision,recall and f-measure.  相似文献   

15.
为解决采用深度学习方法研究满文识别中训练样本匮乏的问题,提出一种使用数据增广方法扩展训练样本集的技术框架。该框架包括字体几何结构变形与图像质量变换两个模块,采用仿射变换、弹性形变等9种数据生成方法,分别模拟满文字符图像的笔画粗细变化、扭曲变形、光照不均、不同视角及背景等情况下的采集效果。在满文识别的研究中,采用该方法将每个类别的字符数据量扩展到7万个。实验表明,该方法生成的数据在一定程度上弥补了训练样本不足的问题,是解决训练样本匮乏问题的有效技术手段。  相似文献   

16.
基于CNN-CRF的中文电子病历命名实体识别研究   总被引:1,自引:0,他引:1  
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究。针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正。把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高。  相似文献   

17.
提出一种基于径向基网络的汽车车牌字符识别算法.在预处理阶段,采用灰度化、自适应阈值分割去除图像噪声并增强图像对比度;在字符分割阶段,采用极限元素位置确定法实现独立字符分割;在字符识别阶段,利用自行构建的字符子块图像库对径向基神经网络进行训练.选取基于反向传播(BP)神经网络的字符识别算法和基于支持向量机(SVM)的字符识别算法与文中方法进行比较.实验结果表明:文中方法在识别准确率上具有明显优势,更适用于汽车车牌的字符识别.  相似文献   

18.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号