期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

林如琦陈锦秀杨肖方许红磊《厦门大学学报(自然科学版)》2011,50(3):540-545

实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高. 相似文献

2.

目标依赖的新闻事件识别

张甜甜兰曼《华东师范大学学报(自然科学版)》2023,(2):60-72

海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现. 相似文献

3.

面向非结构化文本的开放式实体属性抽取

曾道建来斯惟张元哲刘康赵军《江西师范大学学报(自然科学版)》2013,(3):279-283,305

从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 相似文献

4.

基于评论的热点新闻事件识别方法研究

《浙江科技学院学报》2019,(5)

随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。相似文献

5.

基于BERT-CNN的数据标准化方法

周冰洁王培培王鑫郑昊查达仁《扬州大学学报(自然科学版)》2023,(1):70-73

针对复杂多源的非结构化数据，提出一种数据标准化方法，在抽取信息的同时，能将不同来源的数据转换为统一的表示形式.首先，对文本进行词性标注等预处理，提取出需要进一步识别类型的实体；其次，使用语言表征模型对文本信息进行向量表示；最后，通过基于注意力机制的卷积神经网络对抽取出的实体进行分类，以适应不同应用场景的分类标准.实验结果验证了该模型的有效性. 相似文献

6.

基于改进编辑距离和LCS的同源性检测技术

刘云龙《北京理工大学学报》2017,37(2):168-174

传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS（longest common sequence）的结构化识别同源性检测技术.在编辑距离（edit distance）计算中,引入交换算子,提高模块内部同源性度量精度.在LCS算法中,引入相似模块度量的最小尺寸监测机制和代码行间最大动态相关性度量,提供代码结构边界划分、模块行关联、代码有效结构化信息抽取的能力.实验证明,该方法是一种有效的基于结构化信息的同源性检测技术,其随机抽样检测结果的准确率、召回率及F值均有较优表现,且稳定性较好. 相似文献

7.

面向知识库的中文自然语言问句的语义理解

许坤冯岩松赵东岩陈立伟邹磊《北京大学学报(自然科学版)》2014,50(1):85

设计从自然语言问句到结构化查询的转换框架。该方法从自然语言问句的句法结构入手, 提出一套启发式识别实体与关系的方法, 并利用语料库建立从实体到知识库的映射, 对谓词进行消歧, 进而转化为计算机可理解的结构化查询语言。从百度知道抽取人物、地点、组织3类共 42 个问题作为标准测试集。实验结果表明, 所提出的框架能够有效地将中文自然语言问句转换为结构化查询, 为下一代智能问答系统打下良好的基础。相似文献

8.

基于核心依存图的新闻事件抽取

林丽《山东大学学报(理学版)》2016,51(9):121-126

基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。相似文献

9.

基于深度神经网络的信息抽取研究综述

代建华彭若瑶许路蒋超曾道建李扬定《西南师范大学学报(自然科学版)》2022,(4):1-11

信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑.... 相似文献

10.

识别和抽取XML文档中的关系信息及其出现模式 总被引：3，自引：0，他引：3

雷庆吴扬扬《清华大学学报(自然科学版)》2005,45(9):1757-1761

Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据. 相似文献