首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
统计分词模型需要使用合适的标注集合来将中文句子的分词问题转化成序列标注问题,因此,标注集合的选择是统计分词模型中需要解决的一个重要的问题。文章分别借助单因子方差分析、置信区间和p值三种方法来比较常用的几种标注集合对中文分词模型性能差异的显著程度。首先根据单因子方差分析方法得出标注集合对于中文分词模型性能的影响是显著的;其次,使用置信区间和p值来选择最优的标注集合。实验结果表明:在常用的标注集合中,标注集合BB2B3MSE可以明显地提升中文分词模型的性能。  相似文献   

2.
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。  相似文献   

3.
机器阅读理解(Machine Reading Comprehension,MRC)一直是自然语言处理(Natural Language Processing,NLP)领域的研究热点和核心问题.近期,百度开源了一款大型中文阅读理解数据集DuReader,旨在处理现实生活中的RC(Reading Comprehension)问题.该数据集包含1000k的文本、200k的问题和420k的答案,是目前最大型的中文机器阅读理解数据集,在此数据集上发布的阅读理解任务比以往更具有实际意义,也更有难度.针对该数据集的阅读理解任务,分析研究了一种结合双向注意力流与自注意力(self-attention)机制实现的神经网络模型.该模型通过双向注意力流机制来获取query-aware上下文信息表征并进行粒度分级,使用自注意力机制捕捉文本和问题句内的词语依赖关系和句法信息,再通过双向长短期记忆(Long Short-Term Memory,LSTM)网络进行语义信息聚合.实验结果最终得到相同词数百分比(BLEU-4)为44.7%,重叠单元百分比(Rouge-L)为49.1%,与人类测试平均水平较为接近,证明了该模型的有效性.  相似文献   

4.
抽取式阅读理解是自然语言处理的重要任务,需要机器在阅读理解自然语言文本的基础上,从中抽取给定问题的答案(输入文本中的片段),并在问题不可回答时拒绝回答.这种不可回答情况的存在使机器阅读理解更具有挑战性,特别是在输入文本含有似是而非文本片段时,现有模型很容易将这样的片段混淆为问题答案,进而错误判断问题的可回答性.为了进一步提高抽取式机器阅读理解模型的效果,本文将SQuAD 2.0数据集中的似是而非答案看成对抗样本,将其既作为答案文本片段抽取的正例,也作为问题可回答性的负例,在现有模型答案交叉熵损失的基础上增加排序损失.在SQuAD 2.0上进行的实验表明,本文方法可以提高现有模型的阅读理解能力,明显提升可回答性判断及答案文本片段抽取的效果.  相似文献   

5.
为了提高实体关系联合抽取的效果, 提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案, 将实体和关系的联合抽取转化成序列标注问题, 同时采用分层的序列标注方式来解决三元组重叠问题。实验证明, HSL模型能有效地解决三元组重叠问题, 在军事语料数据集上F1值达到80.84%, 在公开的WebNLG数据集上F1值达到86.4%, 均超过目前主流的三元组抽取模型, 提升了三元组抽取的效果。  相似文献   

6.
针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会丢失问题与答案之间的交互,和传统的循环网络顺序解析文本从而忽略段落内部推理的问题,提出一种改进段落编码并且将段落与问题和答案共同匹配的模型.模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,其次,将块序列通过前向全连接神经网络扩展到原始序列长度.然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理.最后,通过注意力机制将段落表示与问题和答案的交互来选择答案.在SemEval-2018 Task 11任务上的实验结果表明,本文模型在正确率上超过了相比基线神经网络模型如Stanford AR和GA Reader提高了9%~10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右.除此之外,在RACE数据集上的预训练也可以提高模型效果.  相似文献   

7.
中文成语有着独特的抽象语义。在机器阅读理解任务中,为了解决模型不能充分理解成语含义的问题,本文提出一种完形填空式匹配网络。匹配网络将成语与其词典释义以注意力交互的方式融入模型,使成语得到更好的向量表征,并且在段落与候选答案之间采用双向交互的策略。将匹配网络与语言模型(BERT、 ERNIE等)相结合,本文设计出一个针对完形填空式阅读理解任务的模型。实验结果表明,该模型优于传统模型、SKER模型以及结合增强型全局注意力的BERT模型,在中文成语数据集CHID上达到77.0%的准确率。  相似文献   

8.
中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。  相似文献   

9.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

10.
针对目前机器阅读理解任务中缺乏有效的上下文信息融合方式和丢失文本的整体信息等情况,提出基于时间卷积网络的机器阅读理解模型.首先将文本的单词转化成词向量并加入词性特征;接着通过时间卷积网络获取问题和文章的上下文表示;之后采用注意力机制来计算出问题感知的文章表示;最后由循环神经网络模拟推理过程得到多步预测结果,并用加权和的方式来综合结果得到答案.实验使用了SQuAD2.0数据集,在EM和F1值上相比基准实验分别提升了6.6%和8.1%,证明了该方法的有效性.  相似文献   

11.
利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题.为了解决这一难题,设计了一种六字位标记集,提出了一种基于层叠式条件随机场模型的古文断句与句读标记方法.基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记.实验在5 M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%.  相似文献   

12.
抑郁症患者对自身认知的不足以及早期筛查方法的缺乏导致很多患者在治疗时就已经是重度抑郁障碍,为改善现状,本研究从抑郁症论文摘要中抽取其知识三元组,构建抑郁症知识图谱,并基于抑郁症知识图谱,开发自动问答系统.该问答系统可以将用户输入的问题进行中文分词,然后用BiLSTM+CRF模型识别问题中的医学实体,再根据模板匹配理解问题中的语义,在所建构的抑郁症知识图谱中查询到对应的答案,以自然语言的形式返回给用户.实验结果表明,基于抑郁症知识图谱的自动问答系统可以有效回答抑郁症相关的问题,具有较高的准确率和使用价值.  相似文献   

13.
随着深度学习技术的发展,利用卷积神经网络(CNN)提取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽略了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环填充法的多模态视频描述(AFCF-MVC)模型;采用自适应特征提取法提取含有丰富时空信息和运动信息的视频C3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为神经网络的输入;针对不同视频的标注句子长度不同问题,提出了自适应帧循环填充法,即根据标注句子的长度自适应地控制输入特征的个数,在保证句子输入完整的前提下为神经网络提供尽可能多的特征输入,并起到重复学习的作用;为了充分利用视频丰富的视觉元素信息,通过视觉检测器检测出视频帧的视觉元素信息,编码后作为额外的补充信息融合进AFCF-MVC模型中.在M-VAD和MPII-MD数据集上的实验结果显示,该模型既能准确地描述视频中的内容,也能在语法结构上模拟出人类语言的丰富性.  相似文献   

14.
为了克服高考阅读理解观点类问题中仅仅利用关键词进行答案句抽取的不足,通过对单篇文章建立LDA(latent dirichlet allocation)模型,计算阅读材料中每一句话与问题的主题分布相似度.利用SVM(support vector machine)分类器,对主题分布相似度高的句子进行分类,用于获取具有观点特征的候选观点句,最后将其与问题观点进行相似度计算并排序,选取排名前α个句子作为题目的答案句.该方法在标注好的高考观点类问题的答案句识别中,总体正确率达到了47.8%,并能将答案句的排序提前.实验结果表明,散文阅读理解题中采用多主题方法比单主题时具有更好的效果.  相似文献   

15.
目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升.  相似文献   

16.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

17.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

18.
在大规模文本语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义信息.但在进行中文命名实体识别任务时,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致中文命名实体识别效果不佳.考虑到知识图谱可以提供丰富的结构化知识事实,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力.实验结果表明,与BILSTM-CRF、BERT等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA与搜狐新闻网标注数据集上,F1值分别达到了95. 4%与93. 4%.  相似文献   

19.
针对经典的文本匹配模型在问答系统中应用的缺陷和不足,提出了一种基于增强问题重要性表示网络BIWN的答案选择算法.目前,现有的答案选择模型普遍将问题句子和答案句子直接进行匹配,忽略了问题句子和答案句子中的噪声词对匹配的影响.针对这个问题,首先,利用自注意力机制修改问题句子中各个词的权重,生成“干净”的问题句子向量;然后,利用词级交互矩阵捕捉问题句子和答案句子之间的细粒度语义信息,从而有效地弱化了噪声词对正确答案的影响;最后,利用多窗口CNN提取特征信息得到预测结果.基准数据集上的对比实验表明,BIWN模型在答案选择任务的性能优于主流的答案选择算法,MAP值和MRR值提升了约0.7%~6.1%.  相似文献   

20.
基于定长序列的双向LSTM标注模型,提出强化中心字模型和强化逆向序列模型的分词优化方法.在Bakeoff2005微软亚洲研究院语料上的实验表明,优化方法的分词效果得到了提升.提出的优化模型,对于其他序列标注任务,具有一定的借鉴作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号