首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 431 毫秒
1.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

2.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息.  相似文献   

3.
文章选用教材义特征向量作为信息抽取的基础,并用神经网络方法对语料进行训练学习并自动获取模板语义特征向量,最后结合目标模板抽取出所需信息.这种方法避开语法分析,具有较细的处理粒度,对语义元素搭配形式相对规范的领域具有一定的普遍适用性.实验结果表明,基于中文框架语义的信息抽取方法具有相对较高的准确率.  相似文献   

4.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

5.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

6.
【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers, BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks, Bi-LSTM)及多头注意力机制(multihead self-attention, MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field, CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情...  相似文献   

7.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息....  相似文献   

8.
为解决弱情感倾向语料影响文本情感分类的问题,提出基于全局语义学习的文本情感增强方法。首先设计语料划分方法,将语料划分为强情感倾向语料与弱情感倾向语料,然后,从文本处理全过程及整体语义学习的角度出发,构造均值抽取与最大值抽取的语义提取方式及文档信息向量,改进基于循环神经网络的变分自编码器的语义学习过程,并用于学习强情感倾向语料中文本的词语序列特征与语义特征。基于此,对弱情感倾向语料进行重构,实现情感增强目标,最后,将经过情感增强的语料替换掉原来的弱情感倾向语料,再进行情感分类模型的训练与测试。结果表明:提出的文本情感增强方法能够提升情感分类效果,并使得Bert分类器对IMDb影评数据集的情感分类精确率达到了93.03%。  相似文献   

9.
探讨了如何有效地利用互联网上大规模的图像和文本信息以数据驱动的方式来实现图像的自动标注,并提出了一种基于语义相关区域搜索的图像自动标注框架.该框架首先利用人工建立的视觉和文本知识库Image-Net来训练一组弱分类器;然后将学习好的弱分类器作用于分割后的图像区域块生成Region-level的语义特征表示用以在大规模的图像数据库中进行相关图像区域的搜索,最后从搜索结果的文本描述中通过聚类挖掘的方式产生最终的图像标注结果.对比于image-level的底层特征表示,基于分类学习的区域模块具有更强的语义表达能力和更好的鲁棒性,更容易抓住图像本身包含的多个目标的多重语义;从而使得该框架兼具了大规模数据驱动和传统基于分类算法的优点.大量web图像和公认的测试数据集上进行的实验结果证明了本文提出框架的有效性.  相似文献   

10.
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。  相似文献   

11.
提出了一种基于条件随机场的中文自动文摘方法.用条件随机场来建立词性标注模型.在文摘句抽取时,引入了关键词抽取技术抽取文摘句.在生成文摘时,采用了基于规则的方法去除文摘中的冗余信息,使最后生成的文摘更具有可读性.实例表明该方法能够适应于许多领域,得到了很好的应用效果.  相似文献   

12.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

13.
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

14.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

15.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果。对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

16.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

17.
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号