首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对司法领域阅读理解数据集缺乏、现有模型在不可回答问题样本和噪声样本上表现不佳等问题,提出了三种优化策略.首先,采用通用领域阅读理解数据集对RoBERTa-wwm模型进行预训练;然后,采用基于UniLM的问句生成模型生成不可回答问题样本,扩充已有训练集;最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性....  相似文献   

2.
为了更好地评价阅读理解模型的鲁棒性,基于Dureader数据集,通过自动抽取和人工标注的方法,对过敏感、过稳定和泛化3个问题分别构建测试数据集.还提出基于答案抽取和掩码位置预测的多任务学习方法.实验结果表明,所提方法能显著地提高阅读理解模型的鲁棒性,所构建的测试集能够对模型的鲁棒性进行有效评估.  相似文献   

3.
人工智能正在深彻地变革各个行业.AI与教育的结合加速推动教育的结构性变革,正在将传统教育转变为智适应教育.基于深度学习的自动问答系统不仅可帮助学生实时解答疑惑、获取知识,还可以快速获取学生行为数据,加速教育的个性化和智能化.机器阅读理解是自动问答系统的核心模块,是理解学生问题,理解文档内容,快速获取知识的重要技术.在过去的几年里,随着深度学习复兴以及大规模机器阅读数据集的公开,各种各样的基于神经网络的机器阅读模型不断涌现.这篇综述主要讲述3方面的内容:介绍机器阅读理解的定义与发展历程;分析神经机器阅读模型之间的优点及不足;总结机器阅读领域的公开数据集以及评价方法.  相似文献   

4.
将条件变分自编码器作为辅助模块,引入预训练语言模型的编码解码过程,通过数据增强(潜在的语义扩充)以提高模型的鲁棒性。通过建立陈述句与疑问句之间的高维分布联系,由分布采样实现一对多的问题生成。结果表明,融合条件变分自编码器不仅能生成多样性的问题,也有助于提升问题生成的模型性能。在基于SQuAD数据集划分的2个答案可知问题生成数据集Split1和Split2上,BLEU-4值分别被提升到20.75%和21.61%。  相似文献   

5.
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。  相似文献   

6.
基于对"中国式过马路"问题的调研数据,运用波利亚安全模型原理,建立适合我国国情的治理"中国式过马路"陋习的数学模型,为交通管理部门这方面的治理提供了理论依据.  相似文献   

7.
小样本图像分类训练样本过少,若直接用深度学习的方法对其处理会出现过拟合现象,且存在训练好的模型不能很好的泛化到测试任务上等问题.针对以上问题,提出一种基于数据增强的算法去缓解模型过拟合,并结合深度学习网络wide-ResNet28来提升模型的分类性能.此方法没有引用外部数据对当前任务进行数据扩充,而是借助基类数据的语义先验信息对新类数据的特征进行补充,在形成新的特征分布上进行数据增强.该方法在MiniImageNet和Cub 2个小样本数据集上进行实验,图像特征提取的精确度分别达到83.46%、91.61%,验证了该方法的有效性.  相似文献   

8.
过热度是反映铝电解槽当前生产效率的重要指标,由于过热度难以在线实时测量,本文提出一种基于残差卷积自注意力神经网络的过热度识别方法.针对铝电解生产过程数据为时间序列数据且具有多源异构特性,设计异构数据的同构表示方法.在此基础上建立残差卷积自注意力神经网络模型以提取同构时间序列数据的全局与局部特征.针对过热度数据标签少且类别分布不均匀问题,采用基于自动编码器的无监督预训练方法与加权交叉熵损失函数以提高过热度识别任务的性能.在基准数据集上进行仿真对比实验以验证本文所提方法的有效性,然后在只包含少量不平衡标签的铝电解过热度数据集上进行实验验证,结果表明本文构建的过热度识别模型相较与其他现有模型不仅提高了过热度识别准确率,而且在训练样本较少时保证了模型的泛化能力.  相似文献   

9.
抽取式阅读理解是自然语言处理的重要任务,需要机器在阅读理解自然语言文本的基础上,从中抽取给定问题的答案(输入文本中的片段),并在问题不可回答时拒绝回答.这种不可回答情况的存在使机器阅读理解更具有挑战性,特别是在输入文本含有似是而非文本片段时,现有模型很容易将这样的片段混淆为问题答案,进而错误判断问题的可回答性.为了进一步提高抽取式机器阅读理解模型的效果,本文将SQuAD 2.0数据集中的似是而非答案看成对抗样本,将其既作为答案文本片段抽取的正例,也作为问题可回答性的负例,在现有模型答案交叉熵损失的基础上增加排序损失.在SQuAD 2.0上进行的实验表明,本文方法可以提高现有模型的阅读理解能力,明显提升可回答性判断及答案文本片段抽取的效果.  相似文献   

10.
目前对于机器阅读理解的研究大多都使用预先训练的语言模型如BERT来编码文档和问题的联合上下文信息,相较于传统的RNN结构,BERT模型在机器阅读理解领域取得了显著的性能改进.但是当前基于BERT的机器阅读理解模型由于输入长度有限(最大长度为512),在进行特征提取时,存在一定程度的语义丢失,且不具备建立长距离依赖能力....  相似文献   

11.
针对目前机器阅读理解任务中缺乏有效的上下文信息融合方式和丢失文本的整体信息等情况,提出基于时间卷积网络的机器阅读理解模型.首先将文本的单词转化成词向量并加入词性特征;接着通过时间卷积网络获取问题和文章的上下文表示;之后采用注意力机制来计算出问题感知的文章表示;最后由循环神经网络模拟推理过程得到多步预测结果,并用加权和的方式来综合结果得到答案.实验使用了SQuAD2.0数据集,在EM和F1值上相比基准实验分别提升了6.6%和8.1%,证明了该方法的有效性.  相似文献   

12.
为了在数据集过小时更好的训练卷积神经网络,本文提出一种方法通过训练GAN(生成对抗网络)生成新的样本进行图像数据增强。扩充后的数据集应用于训练图像分类模型,得到了不错的效果。针对Herlev宫颈细胞数据集的二分类问题,本文首先使用原始训练集训练GAN,生成了大量高质量的高分辨率细胞图像,将每类训练集扩充到24 000例。然后使用扩充后的训练集进行分类网络训练,在Resnet迁移学习的验证集准确率高达97%,高于仿射变换扩充的数据集的训练结果93%,可见本文方法可以有效地实现图像的数据增强。本文方法也可用于其他领域的图像数据增强。  相似文献   

13.
万宇  齐金平  张儒  闫森 《科学技术与工程》2021,21(28):12080-12087
基于机器学习的煤与瓦斯分类预测方法中,各突出案例的数量不平衡会导致预测准确率降低。为了提升煤与瓦斯突出预测模型的准确率及稳定性,构建了过采样算法和支持向量机(support vector machine, SVM)组合的分类预测模型。首先,通过聚类分析将突出样本分成多个簇,在每个簇中对可能的噪声点按概率去除;然后通过过采样算法合成新样本,以减少样本数量不均衡对模型训练的影响;最后,用支持向量机模型结合粒子群算法对新数据集进行训练调优。实验结果表明:提出的模型在G-mean、曲线下面积(area under curve, AUC)值上均高于传统的分类模型,具有更强的算法鲁棒性,并且随着突出样本数量的减少,其优势更加明显。  相似文献   

14.
针对中文司法领域信息抽取数据集中实体专业性较强、现有机器阅读理解(MRC)模型无法通过构建问句提供充足的标签语义且在噪声样本上表现不佳等问题,本研究提出了一种联合优化策略。首先,通过聚合在司法语料中多次出现的实体构建司法领域词典,将专业性较强的实体知识注入RoBERTa-wwm预训练语言模型进行预训练。然后,通过基于自注意力机制来区分每个字对不同标签词的重要性,从而将实体标签语义融合到句子表示中。最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性和泛化能力。在2021年中国法律智能评测(CAIL2021)司法信息抽取数据集上的实验结果表明:相较于基线模型,本研究方法F1值提高了2.79%,并且模型在CAIL2021司法信息抽取赛道中获得了全国三等奖的成绩,验证了联合优化策略的有效性。  相似文献   

15.
提出了一种基于输出过采样技术的线性离散时间闭环系统辨识方法 ,通过对输出端施加过采样 ,将原闭环系统模型转化为过采样模型 .对于输出端白噪声、有色噪声干扰 ,分别利用最小二乘辨识算法和误差预报算法辨识出过采样模型 ,进而计算出原闭环系统的模型参数 .辨识结果中模型参数的估计误差服从均值为0的正态分布 ,方差由过采样率决定 ,据此推导出了使参数估计误差最小化的最优过采样率的计算方法 .该方法实现简单 ,运算量小 ,估计精度高 .仿真实验表明 ,当信噪比大于 15dB时 ,该方法的估计精度可达98% ;当过采样率为 15~ 2 0时 ,算法具有最优的辨识精度  相似文献   

16.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.  相似文献   

17.
丁元林 《科技信息》2010,(27):299-299,418
建立空间图形性质的正确概念,培养学生空间想象能力,增强学生学习兴趣,增强学生识图、作图能力,提高分析问题,理解问题,解决问题的能力。  相似文献   

18.
机器阅读理解是利用算法让计算机理解文章语义并回答用户提出的问题,同时可以衡量机器对自然语言理解的能力.以机器阅读理解的技术与应用场景为研究目标,完成机器阅读理解任务的定义,并概述该任务在国内外的研究现状.文章首先对当前机器阅读理解任务所采用深度学习模型进行研究,具体包括注意力机制模型、预训练模型和推理模型,从而进一步梳...  相似文献   

19.
为解决基于机器学习的岩爆预测中存在的数据不均衡问题,提高模型泛化能力,进而提高岩爆预测性能,该文构建了由246组岩爆案例组成的岩爆预测数据集,优选了单轴抗压强度与单轴抗拉强度之比、最大切应力、最大切向应力与单轴抗压强度之比、单轴抗压强度、单轴抗拉强度、弹性能指数6个常用岩爆等级判别特征。通过引入9种经典机器学习算法,建立了9个考虑多因素的岩爆预测模型,研究了5种过采样方法及5种客观赋权方法对模型预测性能的影响。研究结果表明:数据在过采样处理后,模型准确率提高了11.8%~52.3%、宏平均F_1值提高了13.0%~50.0%;随机过采样方法对模型性能提升效果最佳,最能解决数据不均衡问题;随机过采样均衡化数据集后,客观赋权作用因模型而异,只能提升基于极限梯度提升算法、随机森林、决策树、极限树构建的模型的准确率(分别提高1.1%、 2.1%、 10.7%、 12.9%)及宏平均F_1值(分别提高1.2%、 2.3%、 11.8%、 12.8%);基于随机过采样的多层感知机算法模型是最优的岩爆预测模型,其准确率及宏平均F_1值均最高,分别为0.917、 0.920。  相似文献   

20.
机器阅读理解(Machine Reading Comprehension,MRC)一直是自然语言处理(Natural Language Processing,NLP)领域的研究热点和核心问题.近期,百度开源了一款大型中文阅读理解数据集DuReader,旨在处理现实生活中的RC(Reading Comprehension)问题.该数据集包含1000k的文本、200k的问题和420k的答案,是目前最大型的中文机器阅读理解数据集,在此数据集上发布的阅读理解任务比以往更具有实际意义,也更有难度.针对该数据集的阅读理解任务,分析研究了一种结合双向注意力流与自注意力(self-attention)机制实现的神经网络模型.该模型通过双向注意力流机制来获取query-aware上下文信息表征并进行粒度分级,使用自注意力机制捕捉文本和问题句内的词语依赖关系和句法信息,再通过双向长短期记忆(Long Short-Term Memory,LSTM)网络进行语义信息聚合.实验结果最终得到相同词数百分比(BLEU-4)为44.7%,重叠单元百分比(Rouge-L)为49.1%,与人类测试平均水平较为接近,证明了该模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号