首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对中文细粒度隐式篇章关系识别进行研究。考虑细粒度篇章关系的方向性特点, 提出一种基于远距离监督的特征学习算法。该算法使用远距离监督的方法, 自动标注显式篇章数据, 然后利用词与连词之间的相对位置信息, 训练各个词的词表达, 将词的修辞功能以及关系的方向性编码到密集词表达中, 将这样的词表达应用到细粒度隐式篇章关系分类器。实验结果表明, 在细粒度隐式篇章关系识别任务中, 该方法的分类准确率达到49.79%, 比未考虑篇章关系方向性的方法有较大程度的提高。  相似文献   

2.
根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。  相似文献   

3.
隐式篇章关系识别是篇章分析领域中极具挑战性的子任务,其挑战性在于难以捕捉论元之间的交互信息,并对这类交互信息进行联合的表示学习(交互信息即为论元中有益于体现关联关系及关系类型的词义和语义信息)。针对这一问题,文章提出一种基于堆叠式注意力机制的隐式篇章关系分类方法,即,将论元的自注意力分布特征应用于论元之间的交互式注意力计算,通过自注意力和交互式注意力的信息融合,加大了论元间关联信息的权重。文章利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验。实验结果表明,相较于基准系统,该方法的F1值在四大类关系上分别提高了6.47%、3.94%、3.82%和6.57%,准确率分别提高了6.41%、2.68%、6.88%和3.82%。  相似文献   

4.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

5.
采用一个自建的汉语篇章结构语料库(隐式关系占80%)进行隐式关系识别。语料中将篇章关系分成3个层次, 第一层包含因果、并列、转折、解说四大类。在此语料上, 利用上下文特征、词汇特征、依存树特征, 采用最大熵的分类方法对四大类关系进行识别。实验结果显示, 总正确率为62.15%, 其中并列类识别效果最好, F1值达到75.26%。  相似文献   

6.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

7.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%, 召回率87.6%, F-评价值88.64%.  相似文献   

8.
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%,召回率87.6%,F-评价值88.64%.  相似文献   

9.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

10.
针对传统机器学习方法在采用运动传感器数据的人体运动识别领域中识别效果严重依赖人工特征且准确率受限的问题,提出一种改进的卷积网络与双层长短期记忆网络的深层混合(VGGLSTM)模型以实现特征自提取并进行运动识别。该模型结合传感器数据层状、时序的结构特点,将多维传感器数据类比于图像的RGB矩阵进行适应性处理;由一维串联卷积网络与双层长短期记忆网络复合而成。实验结果表明,在开源的人体运动识别(HAR)数据集和无线传感器信息控掘(WISDM)数据集上采用该模型的人体运动识别方法的平均准确率分别达到了97.17%和96.53%,该模型可以有效避免复杂的特征工程,在人体运动识别问题中具有很好的准确性和适应性。  相似文献   

11.
为解决课程评论中隐式评价对象识别问题,提出了一种基于文本分类的隐式评价对象的识别方法。首先通过word2vec 模型获得训练文本对应的词向量,获得短文本特征; 其次将短文本特征在TextCNN 中进一步提取高层次特征,通过K-max 池化操作后放入Softmax 分类器中进行训练得出分类模型; 最后利用训练好的分类器对隐式评价句进行分类,获取隐式评价句对应的评价对象。实验表明,基于卷积神经网络对隐式课程评论进行属性分类,课程评论的隐式评价对象识别正确率达到89. 9%,满足了课程评论中对隐式评价句对象识别的需求。  相似文献   

12.
针对公开数据集训练所得模型无法直接应用于临床上不同设备的辅助诊断,而临床获取的数据又缺少足够人力进行标注的问题,提出了一种面向皮肤病临床影像识别的小样本域自适应方法。以ISIC皮肤病公开数据集作为标签已知的源域,以实际临床采集的数据作为待识别的目标域,通过医生对极少量临床数据进行标注,建立由卷积神经网络实现的特征提取器和分类器,构建小样本域自适应模型。引入最大相关熵准则来提高识别模型的精度和泛化能力,在每类只有少量带标签目标域样本的情况下,通过交替最大最小化条件熵,在提取区别性特征的同时减小不同域之间的分布差距,提高了分类器在新域上的准确率,实现了模型的跨域迁移。对所提方法在日光性角化病和脂溢性角化病分类问题上进行了实验验证,结果表明:相比于非域自适应方法,所提方法克服了不同采集设备造成的数据分布差异问题,取得了更高的识别准确率;相比于无监督域自适应方法,所提方法通过加入极少量标注的临床数据实现了域自适应,识别准确率为93.94%。  相似文献   

13.
篇章级句间关系分析包括语义单元的切分和各个单元之间的语义关系识别.已有的研究主要面向英文,到目前为止,尚无可用的中文篇章级句间关系自动分析系统发布.在中文篇章关系语料库的基础上,首次实现面向中文的篇章级句间关系自动分析系统,包括语义单元切分、连词识别、显式语义关系识别以及隐式语义关系识别等.实验结果显示:该系统在显式句间关系识别上F-score为89.8;,隐式句间关系识别上F-score为55.5;.  相似文献   

14.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

15.
动作识别是计算机视觉研究中的一个基本但具有挑战性的问题.在过去的几年中,许多基于RGB视频的识别技术已经得到了巨大的发展,并取得了显著的成果.但是,处理RGB视频可能非常耗时.其中,在动作识别领域,人体骨架数据具有轻量级的特点,同时对人体外观、环境背景等信息具有不变性,因此,这种数据模态受到了越来越多的关注.然而,基于人体骨架的动作识别面临两个问题:人体骨架数据的噪声问题和数据标注的依赖问题.噪声问题是指骨架数据中存在噪声影响数据的准确性,而数据标注依赖问题则是指在监督学习中,需要大量的标签数据进行训练.本文针对人体骨架数据在采集中的噪声问题,提出了一种基于噪声适应的动作识别模型,设计了回归模型和生成模型充分利用不同场景下的噪声数据特点.并且针对人体骨架数据过于依赖标签数据,利用自监督学习方法,提出了一个基于多任务自监督学习的动作识别方法.  相似文献   

16.
刘星宇  宁慧  张汝波 《应用科技》2021,(1):25-30,35
针对如何使用适当的模型或结构使得词性标注结果准确率提升的问题,对隐马尔可夫模型和条件随机场模型进行了深入研究和实验,使用条件随机场的不同特征方程进行了多组实验,并对比了每组实验的准确率.实验结果表明,条件随机场对于解决英文词性标注问题有着更大的优势;将共性的特征与相对具体的后缀特征结合使用所达到的词性标注准确率最高.  相似文献   

17.
针对目前手绘草图识别难度大,识别准确率低且主要以手工提取特征为主,提出一种新的卷积神经网络结构DCSN( Deeper-CNN-Sketch-Net) 进行手绘图像识别。DCSN 模型是根据手绘草图的特点进行设计,如在首层采用了更大的卷积核获取草图的结构信息和更小的步长尽可能多保留特征信息,通过增加网络层数加深网络深度等。为进一步提高识别准确率,针对手绘草图的特点提出了两种新的数据增强方法,小图形缩减策略和尾部移除策略增加数据集的多样性,并利用扩充的数据集训练DCSN 网络。经实验验证,所提出的模型在目前最大的手绘图像数据集上可以取得70. 5% 的识别准确率,超过了目前存在的几种主流的手绘草图识别方法。  相似文献   

18.
网络社交媒体的快速发展提供了便捷的信息获取方式,但也滋生了谣言和虚假新闻,现有的谣言检测模型在有标注数据充足时能有效解决分类问题,然而谣言可用的标注数据有限,各种针对谣言特点精心设计的模型倾向于过拟合,同时,现有模型的鲁棒性不足,谣言传播者恶意破坏谣言传播结构会使模型出现分类错误.针对以上问题,采用自监督的图对比学习方法,对原始谣言传播图进行不同方式的数据增强来模拟对原图的扰动,建立自监督对比学习任务,使图编码器捕获谣言更趋本质的特征,缓解了过拟合,提高了模型的鲁棒性与泛化性能.在来源于主流社交媒体平台的三个公开数据集Twitter15,Twitter16和PHEME上进行了对比实验,实验结果显示,提出的模型的准确率比基准模型分别提高3.4%,1.8%和1.2%,证实了图自监督对比学习方法在谣言检测任务上的有效性.  相似文献   

19.
大规模和高质量的标注语料是进行监督算法分类器训练的重要前提,而进行大规模的语料标注是一项费时费力的工作,并且针对特定的领域还需要该领域专家的介入.提出一种基于语义模式的半监督中文观点句识别方法,可以通过小规模语料的训练识别出中文观点句.首先,通过语义模型提取算法从训练集当中识别出观点句语义模型和非观点句语义模型;然后,将两种模型转化为语义特征,并且加入词汇特征和词性特征两方面特征,通过BootStrapping对小规模标注语料进行训练,得到朴素贝叶斯分类器;接着,使用朴素贝叶斯分类器对大规模未标注的语料进行分类,将可信度高的样本加入训练模型迭代进行训练,直到无样本加入;最后经过多轮迭代得到最终的分类器.实验表明,该方法在只具备少量样本的情况下就可达到83.7%的准确性,证明了该方法的有效性.  相似文献   

20.
为实现精准的越野环境路面信息识别,文中提出了一种基于多传感器信息融合的路面信息识别方法.首先,针对车辆簧下振动加速度信号设计了特征提取算法,通过双线性池化方法融合加速度特征与图像+深度特征,以实现对越野路面类型的多维度特征融合与识别.然后,为提高越野路面可通行区域检测效果,引入迁移学习方法,将越野场景路面类型识别模型中路面特征提取的共性知识向通行区域分割模型进行迁移.在真实越野环境数据集下对模型进行训练与测试,测试结果表明文中提出的识别方法不仅在越野场景路面类型识别任务上获得了98.65%的平均分类准确率,而且引入先验知识可明显提升通行区域检测效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号