首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对复杂多源的非结构化数据,提出一种数据标准化方法,在抽取信息的同时,能将不同来源的数据转换为统一的表示形式.首先,对文本进行词性标注等预处理,提取出需要进一步识别类型的实体;其次,使用语言表征模型对文本信息进行向量表示;最后,通过基于注意力机制的卷积神经网络对抽取出的实体进行分类,以适应不同应用场景的分类标准.实验结果验证了该模型的有效性.  相似文献   

2.
知识图谱的表示学习方法将实体和关系嵌入到低维连续空间中,从而挖掘出实体间的隐含联系.传统的表示学习方法多基于知识图谱的结构化信息,没有充分利用实体的描述文本信息.目前基于文本的表示学习方法多将文本向量化,忽略了文本中实体间的语义关联.针对上述缺点提出一种利用实体描述文本进行增强学习的方法,基于文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到知识图谱的表示学习中.实验结果表明,该辅助约束能明显提升推理效果,优于传统的结构化学习模型以及基于深度学习的文本和结构的联合表示模型.   相似文献   

3.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

4.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

5.
Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率.  相似文献   

6.
面向中文专利SAO结构抽取的文本特征比较研究   总被引:1,自引:0,他引:1  
针对中文专利文本中SAO结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取效果。此外, 也验证了词向量在SAO结构关系抽取中的可行性。  相似文献   

7.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

8.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

9.
结合模式匹配、生物医学本体及共现技术,设计了一种自动抽取基因与疾病、基因与基因之间关系的文本挖掘方法,并开发了一个可以处理海量文本数据的系统.该系统可抽取与疾病相关的基因实体,挖掘基因与疾病、基因与基因之间的关系,衡量基因与疾病实体的相关性,并为分析基因与疾病、基因与基因之间的关系提供了网络可视化工具.实验结果表明,系统在测试数据集上抽取基因与疾病之间的关系可获得83.0%的综合测评率,抽取基因与基因之间的关系可获得78.5%的综合测评率.该系统已成功应用于乳腺癌及相关基因的研究.  相似文献   

10.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

11.
提出了一种基于分层网格点密度的单株树信息提取方法,从车载激光扫描点云数据中提取出组成单株行道树的激光点,并计算树高、冠幅等特征信息.该方法由建立规则网格,基于高程的点云分层,逐层计算网格点密度,逐层提取激光点,提取单株行道树和计算特征等步骤构成.通过实例证明,提取结果较好地保留了组成单株行道树的激光点,并能较准确地计算特征信息.该方法拓展了车载激光扫描系统的应用领域,并可为城市绿化管理提供新的技术方法.  相似文献   

12.
选择昆明市作为研究区,以2011年LandsatTM影像为基础数据,通过分析研究区地形特征,提出把研究区进行分区并分别确定高程、坡度决策规则的改进型决策树分类方法,并结合分析的光谱特征规律,在决策分类中引进了比值型指数、NDVI值,构建基于光谱特征和地学辅助知识的决策树信息提取模型,最后对传统计算机自动监督分类方法与决策树信息提取模型方法解译的昆明市土地利用数据的精度进行评价。研究结果表明:基于改进的决策树分类方法进行遥感信息提取的昆明市土地利用数据的Kappa指数比传统监督分类方法提高了0.234,分类精度提高了17.03%;从各种地类类型的测试样本点平均正确率来看,改进的决策树分类方法比传统监督分类方法提高了21%,大大提高了LandsatTM遥感数据分类的精确度和可靠性。  相似文献   

13.
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率.  相似文献   

14.
针对非线性特征提取问题,基于核最大间距准则(KMMC),提出一种新的特征提取方法,即一组具有统计不相关性的最优核鉴别矢量集的简单计算方法.与原KMMC特征提取方法相比,新的特征提取方法消除了最优核鉴别矢量间的统计相关性,提高了特征提取的有效性.通过在ORL人脸库和YALE人脸库上进行试验,结果表明提出的特征提取方法在有效性方面整体上好于原KMMC特征提取方法和常用的核主成分分析(KPCA)法.  相似文献   

15.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

16.
基于信息几何理论, 提出一种新的支持向量机核函数改进算法. 利用与数据有关的保角映射, 使核函数具有数据依赖性. 对股票价格数据进行预测的数值模拟结果表明, 改进算法比常规模型具有更好的预测精度.  相似文献   

17.
A novel method for kernel function of support vector machine is presented based on the information geometry theory. The kernel function is modified using a conformal mapping to make the kernel data-dependent so as to increase the ability of predicting high noise data of the method. Numerical simulations demonstrate the effectiveness of the method. Simulated results on the prediction of the stock price show that the improved approach possesses better forecasting precision and ability of generalization than the conventional models.  相似文献   

18.
核属性约简方法对于去除冗余信息,调整数据非线性结构具有独特的优势.针对航空电子设备故障诊断中有效特征提取困难,核属性约简方法中核函数与核参数选择繁琐等问题,提出了一种基于自适应核函数优化学习的核熵元分析(kernel entropy component analysis,KECA)特征提取方法.首先针对一种自适应核函数基于改进的Fisher核矩阵测量准则建立了一种面向多分类任务的核函数优化框架,然后将优化结果与KECA相结合,通过在KECA特征子空间中选择对输入数据Renyi熵估计有较大贡献的核矩阵特征向量来实现故障特征提取.实验结果表明,本文方法不仅提升了分类精度,而且对噪声具有一定的抑制作用,具有良好的泛化性能.   相似文献   

19.
提出一种基于语义核函数的问题分类算法,该算法基于问题的语法结构构建支持向量机(SVM)核函数.首先,将给定的问题解析为语法树结构,用语法树的子树表示该问题;然后,从词法、语法、语义三个层面提取问题的特征,构成更加丰富的特征空间;接着,基于问题的语法树构建核函数;最后,使用潜在语义索引方法并结合问题的词法、语法以及语义特征,通过语义核函数将特征空间映射到更有效的空间中进行问题分类.TREC数据集上的实验结果表明,通过词法、语法以及语义增强的问题特征空间可以提高分类准确率.  相似文献   

20.
对桃仁与红花配伍对药材成分溶出的影响进行研究.采用单因素试验和正交试验,以羟基红花黄色素A提取转移率与干膏率的综合评分为指标,优选红花最佳提取工艺,以苦杏仁苷提取转移率与干膏率的综合评分为指标,优选桃仁最佳提取工艺.在最佳提取工艺下,将桃仁与红花配伍,采用高效液相色谱法测定红花中羟基红花黄色素A提取转移率,并进行统计分析.实验结果显示,红花最佳提取工艺为提取2次,每次提取1.5 h,液料比为50∶1,桃仁最佳提取工艺为提取3次,每次提取3.5 h,液料比为8∶1.实验结果表明,桃仁对红花中羟基红花黄色素A提取转移率无显著性影响.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号