首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

2.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

3.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

4.
涉案新闻重叠实体关系抽取对于构建案件知识图谱有着重要意义。传统的方法通过定位关系指示符来抽取重叠实体关系,在涉案新闻中,预测罪名的关键词可以作为定位关系指示符的重要依据。该文提出一种联合罪名预测的涉案新闻重叠实体关系抽取方法。预测罪名,将罪名向量融入到关系分类和实体标签分类的状态向量中,实现重叠实体关系抽取。为了缓解因联合罪名预测而给重叠实体关系抽取带来的错误传播问题,引入一种分层级联强化学习机制,将整个过程分解为罪名预测层和重叠实体关系抽取层,利用罪名指导重叠实体关系抽取,帮助重叠实体关系抽取层优化强化学习策略。将重叠实体关系抽取结果反馈给罪名预测层帮助罪名预测层优化强化学习策略。试验表明:该文提出的模型相比基线模型的F1指标提升了4%。  相似文献   

5.
本文从关联数据的角度,研究科研关系揭示问题。本文从关联数据的研究现状出发,认为基于关联数据的科研关系揭示未来研究重点应从科研实体的识别与抽取、语义描述框架构建、科研实体及关系的本体构建、科研关系揭示服务这四个方面来开展。科研关系揭示实现了海量数字资源中分散的、异构的科研实体转化成遵循统一标准的结构化数据,从而构建一个内容相互关联、多维度的资源体系,将不同学科主题、不同内涵外延、不同属性关系的实体进行识别、标识和链接,从而形成一个庞大的关联数据网络,以便快速、高效、全面地揭示科研关系。  相似文献   

6.
Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率.  相似文献   

7.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

8.
当今社会,媒体之间的竞争不断激烈,而社会新闻因为其贴近性强、内容丰富的特点更是成为媒体竞争的"利器".<南方都市报>以其"以人为本"新闻理念诠释着现代的社会新闻,在媒体竞争中形成了自己的特点.  相似文献   

9.
讨论媒体环境实质上是以生态学的观点和方法对新闻传播业做出的一种新的审视,它的用意和价值在于促使人们以整体的、联系的、可持续发展的观念,思考个媒体各要素之间、特别是不同媒体之间以及整个新闻业与社会系统之间的关系问题,它可以在一定程度上纠正或弥补我们以往注重媒体实体、忽视媒体关系,注重传播本身、忽视环境影响的研究缺陷与不足。目的在于使媒体和整个新闻传播业获得良性发展的思路,使新闻传播业与社会系统处于一种互相促进、共同发展的和谐运行状态之中。  相似文献   

10.
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。  相似文献   

11.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表示,对语料库专业领域词汇构造要素进行特征分析并提取边界特征;然后,利用双向门控神经网络和注意力机制有效获取特定词语长距离依赖关系;最后,结合条件随机场模型实现命名实体识别.在同一数据集上进行5种方法实验比较分析,结果表明该模型较BiLSTM-CRF和IDCNN-CRF方法F1值提高9.98%以上.  相似文献   

12.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

13.
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLPCC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性.  相似文献   

14.
给出了一种针对大量新闻数据的话题检测方法.首先通过LDA(latent dirichlet allocation)模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理地体现新闻主题特征.然后改进OPTICS(ordering point to identify the cluster structure)密度聚类算法,基于新闻话题的时间延续性给出了T-OPTICS算法.该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响.改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性.基于TDT4数据集的实验表明,该方法能够快速有效地发现新闻中的话题.  相似文献   

15.
使用JST模型对中文新闻文本进行情感分析,相对于评论文本,新闻文本主观性比较弱,而且大多是长文本,会影响JST模型的分类性能.给出一种抽取情感主题句的方法,将抽取得到的情感主题句结合现有的JST模型对新闻文本的情感倾向进行了分析.实验表明,使用情感主题句进行情感分析,避免了与主题情感无关的句子对分析结果的影响,提高了分类准确率.  相似文献   

16.
互联网自媒体呈现大数据特征,负能量言行时常爆发,舆情检测已经成为网络监管的重大难点问题.本文基于软件定义网络、蜜罐技术和分布式架构,综合"流量级"检测和"进程级"检测2个层面,通过构造异常行为数据集和敏感文本类型数据集,设计负能量舆情倾向的检验算法,搭建虚拟蜜罐式主动性舆情检测系统.实践证明,虚拟蜜罐式主动舆情检测系统,能较好地完成自媒体圈的主题倾向监测任务,为自媒体圈舆情检测技术提供新的研究视角.  相似文献   

17.
文档级实体关系抽取的主要任务是提取文档中实体之间的关系.相较于句内实体关系提取,文档级实体关系抽取需要对文档中多个句子进行推理.为了解决文档中不同实体之间的复杂信息交互问题,提出一个混合提及级图MMLG (Mixed Mention-Level Graph)策略,用于拟合文档中不同实体之间的复杂信息交互,提高模型对于文档级实体关系的感知能力.此外,为了应对实体关系中存在的关系重叠问题,构建了实体关系图ERG (Entity Relation Graph)模块,该模块融合了路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.通过将MMLG策略与ERG模块聚合到实体关系抽取模型中,构建BoBGSAL-Net (Based on Bipartite Graph Structure Aggregate Logic Network)模型,并在公开数据集DocRED和作者实验室构建的数据集AlSiaRED上开展实验,结果证明BoBGSAL-Net在文档级实体关系抽取任务中性能得到提升,其中BoBGSAL-Net+BERT模型在AlSiaRED数据集上的关系抽取...  相似文献   

18.
目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该方法通过提交查询可以在提取数据的同时确定实体的各个属性,根据实体的各个属性进行实体识别.实验表明,该方法具有较高的实体识别准确率.  相似文献   

19.
为实现电力变压器运维知识的有效沉淀,以运维文本为研究对象,提出一种融合规则的电力变压器运维知识图谱深度构建框架.首先根据专家指导自顶向下构建知识图谱概念层;然后融合规则和深度神经网络模型抽取知识,构建知识图谱的数据层.针对运维文本中的实体界限模糊和上下文信息利用不充分问题,提出一种通过扩展上下文信息和BERT(bidirectional encoder representations from transformers)获取扩展Span标签的方法,用于实体和关系抽取.算例分析表明,该方法在电力变压器运维数据集中知识抽取效果良好.  相似文献   

20.
正本刊讯:为深入贯彻习近平新时代中国特色社会主义思想和党的十九大精神,加强厅系统新闻舆论宣传工作,及时准确把握社会舆情动态,提升干部新闻舆情应急处置能力,4月17日下午,省科技厅举办专题讲座,邀请甘肃日报社党委委员、副总编辑昝琦围绕"新闻舆情分析和媒体沟通引导"主题进行授课辅导,厅党组成员、副厅长傅小锋同志主持,厅机关各处室、厅  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号