首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
抽取式阅读理解是自然语言处理的重要任务,需要机器在阅读理解自然语言文本的基础上,从中抽取给定问题的答案(输入文本中的片段),并在问题不可回答时拒绝回答.这种不可回答情况的存在使机器阅读理解更具有挑战性,特别是在输入文本含有似是而非文本片段时,现有模型很容易将这样的片段混淆为问题答案,进而错误判断问题的可回答性.为了进一步提高抽取式机器阅读理解模型的效果,本文将SQuAD 2.0数据集中的似是而非答案看成对抗样本,将其既作为答案文本片段抽取的正例,也作为问题可回答性的负例,在现有模型答案交叉熵损失的基础上增加排序损失.在SQuAD 2.0上进行的实验表明,本文方法可以提高现有模型的阅读理解能力,明显提升可回答性判断及答案文本片段抽取的效果.  相似文献   

2.
为了克服高考阅读理解观点类问题中仅仅利用关键词进行答案句抽取的不足,通过对单篇文章建立LDA(latent dirichlet allocation)模型,计算阅读材料中每一句话与问题的主题分布相似度.利用SVM(support vector machine)分类器,对主题分布相似度高的句子进行分类,用于获取具有观点特征的候选观点句,最后将其与问题观点进行相似度计算并排序,选取排名前α个句子作为题目的答案句.该方法在标注好的高考观点类问题的答案句识别中,总体正确率达到了47.8%,并能将答案句的排序提前.实验结果表明,散文阅读理解题中采用多主题方法比单主题时具有更好的效果.  相似文献   

3.
利用隐马尔可夫模型建立一种在信息抽取过程中对规则进行数值编码的方法,用来提高信息抽取的效率.在对规则中的标记进行编码的过程中,利用此方法可使string匹配方法中O(n2) 级的时间复杂度降低为O(n)级.采用学习的方式来进行规则的生成,这种规则学习的方式使系统的可移植性大大增强.  相似文献   

4.
提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N-POSW模型,并基于2-POS W模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明,相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.  相似文献   

5.
针对情感分析问题中长句和短句进行情感分类时不同的建模特点,提出了一种基于联合深度学习模型的情感分类方法。该方法融合长短期记忆模型(LSTM)与卷积神经网络(CNN)对影视评论数据进行情感极性判别,该方法采用LSTM模型对上下文进行建模,通过逐词迭代得到上下文的特征向量,采用CNN模型从词向量序列中自动发现特征,并从局部抽取特征后将局部特征整合成全局特征来提高分类效果。所提出的方法在COAE2016评测的任务2的情感极性分类任务中,其系统准确率获得最好结果。  相似文献   

6.
针对摘要模型中总结并解释长篇上下文信息存在的困难,提出一种基于细粒度可解释矩阵,先抽取再生成的摘要模型(fine-grained interpretable matrix,FGIM),提升长文本对显著度、更新性和相关度的可解释抽取能力,引导系统自动生成摘要.该模型通过一个句对判别(pair-wise)抽取器对文章内容进...  相似文献   

7.
针对以往关系信息挖掘中存在的复杂XML文档相似度计算精度不高的问题,提出通过发现包含目标关系信息的最小公共祖先节点SCATR,以SCATR节点为根对复杂文档进行片段划分,并按片段的相似度进行聚类,目的在于改善已有模型对复杂XML文档的识别效果.实验结果表明,通过抽取包含目标关系的文档片段,去除文档片段中无关分枝,能够有效地帮助已有模型从复杂XML文档中识别和抽取出目标关系信息.  相似文献   

8.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

9.
从生物医学文本中抽取药物相互作用对可以快速更新药物数据库,具有非常重要的意义与医学应用价值.现有的神经网络模型往往仅从句子序列或其他外部信息中学习到单一片面的特征,难以充分挖掘句中潜在的长距离依赖特征获得全面的特征表示.本文提出一种结合语义和依存关系的药物相互作用关系抽取方法,该方法在利用Bi-GRU网络分别从句子序列...  相似文献   

10.
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显著提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。  相似文献   

11.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

12.
为实现地貌类型快速划分,以前人研究成果为基础,采用DEM( Digital Elevation Modeldata) 数据,将地貌信息提取流程化: 利用均值变点分析法获取宏观地形因子的最佳窗口、根据算法模型提取可反映地貌信息的8 种地形因子、对各地形因子统一量纲、获得地形因子间相关系数矩阵、采用雪式熵值法取得最佳地形因子组合,最后通过ENVI( The Environment for Visualizing Images) 软件中的非监督分类实现地貌类型划分。基于ENVI二次开发平台,采用IDL( Interactive Data Language) 语言进行编程实现,对地貌类型实现全( 半) 自动智能、快速划分。并以长白山作为研究区,从宏观和微观对地貌进行划分,并对分类结果评价分析,结果较好。该系统的实现,不仅对地貌类型提取流程化、集成化,对我国广大范围内地貌填图也具有重要的现实意义。  相似文献   

13.
为解决MRS( Magnetic Resonance Sounding) 信号中乘性噪声干扰的问题,提出了马尔科夫链蒙特卡洛的 参数提取方法。建立MRS 复包络参数的先验信息模型与似然函数模型,使用马尔科夫链蒙特卡洛( MCMC: Markov Chain Monte Carlo) 方法对参数后验分布进行采样与拟合,在后验分布中出现次数最多、权值最大的数据 作为参数的最优估计值。通过多组不同噪声条件下的MCMC 参数提取结果与非线性拟合方法对比,证明了 MCMC 方法可在乘性噪声的干扰下进行MRS 信号参数提取,准确度高、稳定性强。  相似文献   

14.
针对运动功能障碍患者的康复训练需求,在使用Kinect 设备提取人体骨架拓扑结构的基础上,提出了一 种基于关节点角度序列提取人体运动特征的动作模型,并设计了一种基于Kinect 体感相机的康复训练系统。 该系统利用Kinect 设备实时采集人体骨骼数据,计算特征关节点间的角度,形成关节角度变化序列。利用动态 时间规整算法( DTW: Dynamic Time Warping ) 比较被测角度序列与动作库的标准动作序列的相似度,判断动作 是否标准并输出评估结果。该系统具有使用便捷、成本低的特点,提高了训练过程的趣味性。测试结果表明, 该系统通过人机交互实现了对运动障碍患者的康复训练指导,对康复训练过程具有积极影响。  相似文献   

15.
为解决典型模拟电路在设计阶段可能引入的性能退化问题,通过分析国内外电路虚拟验证技术研究进 展,并针对引起模拟电路性能退化的HCI( Hot Carrier Induced) 、NBTI( Negative Bias Temperature Instability) 、 TDDB( Time Dependent Dielectric Breakdoun) 等机理模型进行深入研究,开展了性能退化仿真流程模型设计、 失效物理模型推导建立及模型参数提取3 项关键工作。基于上述关键技术研究,选取典型模拟运算放大器, 采用Cadence spectre 软件开展了性能退化仿真研究。最终得出器件在25 ℃下,工作2 年和10 年后的性能退化 情况,验证了该仿真方法的可行性。该结论可在模拟电路设计阶段,为其设计改进工作提供初步支撑。  相似文献   

16.
基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值的欧式距离、夹角余弦等特征,主要是用来刻画问题句和答案句的相似程度.实验结果表明,把词的分布式实值表示的向量作为最大熵模型的特征对于测试集上的HumSent准确率的提升是有效的.  相似文献   

17.
当归挥发油提取工艺的研究   总被引:2,自引:0,他引:2  
用浸提~减压蒸馏工艺,从当归中提取挥发油,确定适宜工艺条件为浸提温55℃,浸提时间6h,料液比1∶12,挥发油提取率可达(0.54~0.64)%  相似文献   

18.
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec 模型获得训练文本对应的词向量,获得短文本特征; 其次将短文本特征在TextCNN 中进一步提取高层次特征,通过K-max 池化操作后放入Softmax 分类器中进行训练得出分类模型; 最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。  相似文献   

19.
针对传统LPQ( Local Phase Quantization) 特征提取算法在提取手背静脉图像时存在提取细节特征不完整的问题,依据静脉纹理图像的特点将区域划分为子块分别进行LPQ 特征提取。首先,将手背静脉纹理图像分成9 个大小相等的子图像; 然后,分别采用LPQ 特征提取算法对手背静脉进行特征提取,将各子区域提取的静脉纹理信息进行整合形成整张静脉图像的向量特征,最后,使用最近邻分类器将样本进行分类实验,实验结果表明,在分块数为4 × 4 时获得最高识别率96. 50%。  相似文献   

20.
行为识别的过程很大程度上可以看作特征提取与分类器相结合,故特征提取方法的优劣直接影响最终识 别效果。与静态图像物体识别相比,视频中人体行为识别特征提取更易受到动态背景、采集设备运动、视角和 光照等因素影响人体,从而对研究人员的工作提出了很大挑战。为此,综合了近几年对行为识别特征提取系 统分类和不同类型行为识别特征提取方法以及常用行为识别数据库等领域研究的最新进展,探讨了目前研究 难点,阐述了与未来可能的研究发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号