首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 906 毫秒
1.
提出了一种基于语义标注和最小二乘神经网络信息抽取的方法,并选用教材为研究对象,以语义标注作为构建信息抽取规则的基础,以原始文本与目标模板之间的相似度作为竞争力,通过原始文本与目标模板的竞争来实现原始文本的分类和噪声信息的过滤,直接从分类的角度抽取出教材信息。  相似文献   

2.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

3.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

4.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

5.
基于语义上下文分析的因特网人物信息挖掘   总被引:1,自引:0,他引:1  
网络信息的爆炸式增长给人物信息的自动获取带来了巨大挑战.论文针对因特网上大量的人物信息,设计了一种基于语义上下文分析的人物信息挖掘体系框架,重点阐述了人物简历信息识别方法、基于隐马尔可夫模型(HMM,H idden M arkovModel)的命名实体识别方法和基于语义上下文分析的人物信息抽取算法.经实验表明:基于语义上下文分析的人物信息挖掘方法具有较高的信息抽取效率和精度.  相似文献   

6.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

7.
WWW网站分类体系包装器WCSW   总被引:1,自引:0,他引:1  
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

8.
Web网站按自身的导航体系组织信息,其导航体系中含有分类语义特征.为实现有效的Web信息抽取,针对Web网站的分类体系,提出了基于HTML页面分块算法的Web网站分类体系包装器WCSW(website classification system wrapper),WCSW将整个网站作为包装对象,以分块算法和块语义特征分析为基础,根据抽取规则对网站具有分类语义的导航信息块进行处理.实验结果表明:抽取的Web网站分类层次的准确率较高,实用性较强.  相似文献   

9.
词语间语义关系是中文信息处理基础。现有算法存在语义关系抽取专业性强、依赖语料库、抽取有限等不足。通过确定符合语义关系的种子,根据种子生成谓词模板和种子模版,利用网络资源得到网页信息,将网页信息与谓词模版和种子模版进行匹配,最终得到词语间语义关系。该方法充分利用网络资源,并不受限于特定语料资源,抽取的词语关系可适用于多种语义关系的自动抽取。通过同义语义关系实验和对比实验,表明语义关系自动抽取方法具有良好的抽取结果。  相似文献   

10.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。  相似文献   

11.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息.  相似文献   

12.
Information extraction techniques on the Web are the current research hotspot. Now many information extraction techniques based on different principles have appeared and have different capabilities. We classify the existing information extraction techniques by the principle of information extraction and analyze the methods and principles of semantic information adding, schema defining,rule expression, semantic items locating and object locating in the approaches. Based on the above survey and analysis,several open problems are discussed.  相似文献   

13.
Web信息抽取与语义检索框架   总被引:1,自引:1,他引:0  
提出了一种Web信息抽取与语义检索框架,采用定制本体模型,针对Web网页特点设计了抽取与语义标引策略,并在检索过程中引入语义推理机制,从而改善了信息检索的效果.最后介绍了基于Jena实现的该框架的原型系统.  相似文献   

14.
基于CNN-BLSTM的食品舆情实体关系抽取模型研究   总被引:1,自引:0,他引:1  
食品舆情实体关系抽取是构建食品舆情知识图谱的关键技术,也是当前信息抽取领域的重要研究课题。针对食品舆情中常出现的实体对多关系问题,在卷积神经网络(convolutional neural network,CNN)中引入基于位置感知的领域词语义注意力机制;在双向长短时记忆(bidirectional long short-term memory,BLSTM)网络中引入基于位置感知的语义角色注意力机制,构建基于CNN-BLSTM的食品舆情实体关系抽取模型。在食品舆情数据集上进行了对比实验,实验结果表明:基于CNN-BLSTM的食品舆情实体关系抽取模型在食品舆情数据集上准确率比常用的几种深度神经网络模型高出8.7%~13.94%,验证了模型的合理性和有效性。  相似文献   

15.
为提升道路场景语义分割的性能以及实际应用性,本文将传统的图像处理算法与深度学习技术相结合,提出了一种多特征融合的轻量级道路场景语义分割网络模型。该模型首先利用颜色空间转化、图像均衡化、边缘检测等算法来对图像多种特征信息进行增强;其次,以深度可分离卷积为基本单元搭建高效率特征提取结构,对特征增强后的图像进行信息融合和提取,并结合跳层上采样操作完成初步分割;最后,引入边缘检测支路来对分割图像的目标边界信息进行细化,保障网络高精度分割。通过实验结果表明,所提网络在分割精度、计算效率上得到了较好的平衡,同时,在实际变电站道路场景应用中,该网络也能实现高效语义分割,为巡检机器人提供有效的道路信息。  相似文献   

16.
针对路由冲突下语义特征信息进行查准,一直存在查准率低的问题。提出一种新的语义特征信息查准算法,首先构建路由冲突下语义网的本体模型,提高语义网中数据的特征分类挖掘和检索能力;接着采用概念树三叉分割思想,实现路由冲突下的语义特征信息的分析;最后通过灰色关联度信息综合评价方法解决语义多属性决策问题,提高了路由冲突下语义特征信息查询的查准率。实验仿真结果证明,采用改进的查准算法在路由冲突下进行语义信息检索其查准率较高,语义特征提取结果准确,提高了语义搜索的准确度,应用价值较高。  相似文献   

17.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号