首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
实体关系抽取是信息抽取领域的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义.远程监督关系抽取技术利用大型知识库(Knowledge Base,KB)自动对语料进行标注,但存在噪声过大的问题.前人提出的注意力模型中利用实体对的向量表示相减得到关系语义表示,进而使用关系表示来达到降噪的效果,然而同一实体对...  相似文献   

2.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

3.
 把Web页面作为永久对象进行数据存储,利用永久对象的机制存储分解所得的Web页面对象及其成分对象潜在的好处是使用它们的Web页面不用改变源代码就可以把对象从一个数据存储向另一个数据存储转移.同时,这种机制也给Web页面对象的存储和再存储提供了灵活的框架.  相似文献   

4.
基于信息量的Web表格信息抽取方法   总被引:1,自引:0,他引:1  
提出一种基于有效信息量的Web表格信息抽取模型,该模型主要由表格定位和表格信息抽取二个模块组成,根据Web表格的内容特征来识别主题表格,通过检查格式、语法的特征将表格分割成值域与属性域.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

5.
针对关系三元组抽取任务中的冗余关系问题和实体重叠问题,提出一种基于关系过滤器的二维实体对标注方案(RF2DTagging). RF2DTagging模型由两部分组成:1)用于过滤冗余关系的关系过滤器(relation filter); 2)能有效解决各种实体重叠问题的二维实体对标注方案(2D entity-pair tagging scheme).为进一步验证RF2DTagging模型,在3个公开的中文关系抽取数据集(CCKS2019-Task3,CMeIE和DuIE2.0)上进行实验.实验结果表明,该模型能有效解决上述两个问题,且总体性能比对比模型更好.  相似文献   

6.
CORBA技术已经成为最重要的软件开发和集成技术 ,文章简要地介绍了CORBA技术及其特点 ,探讨了CORBA与对象Web结合的三种途径 ,给出了对象Web的系统模型 ,并简要分析它们的优缺点。  相似文献   

7.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取,Web信息抽取是指从Web文档中自动抽取感兴趣信息的过程。本文主要介绍Web信息抽取的研究现状及抽取工具和抽取方法。  相似文献   

8.
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。  相似文献   

9.
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。  相似文献   

10.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

11.
WWW的信息检索技术研究   总被引:3,自引:0,他引:3  
介绍了信息检索技术的发展阶段。详细论述了WWW的3种信息检索技术分类目录式(网站级)检索、全文(网页级)检索、基于内容的多媒体检索,指出WWW网络搜索引擎的主要发展趋势。  相似文献   

12.
WWW信息检索综述   总被引:7,自引:3,他引:7  
WWW是目前全球最大的信息系统,在WWW上查询信息和文档主要依靠Internet搜索引擎。现在也出现了许多实用商业搜索引擎站点,例如Yahoo!、InfoSeek、Excite、Lycos等。主要介绍了信息检索系统的结构(Robot,搜索引擎,索引数据库,查询服务等4个部分),信息检索系统的分类(检索工具站点和检索服务站点),信息搜寻的基本原理,信息检索模型(包括经典的布尔模型,概率模型和新兴的概念模型等),其他的检索技术(例如Push技术,Mobile Agent技术等),对WWW信息检索做了比较全面的介绍。  相似文献   

13.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

14.
历史信息、即时信息以及流言往往冲淡网站中的主题思想,导致信息隐藏等问题。为解决上述问题,提出了网站信息抽取系统的结构模型、数据结构和处理流程;该模型采用信息抽取技术,从相关网页中抽取出带有主观倾向的主题信息;采用贝叶斯网络对客户需求进行决策与预测分析。仿真测试与客户应用证明,该模型能较准确的抽取网站中的客户倾向、有较好的及时性。  相似文献   

15.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

16.
基于关键词的搜索引擎满足了人们一定的需要,但由于其通用的性质,并不能满足用户的个性化需求,为此,设计并实现了一个基于示例的个性化Web信息自动获取系统.该系统采用了一种新的基于少量Web示例网页和语料库词频统计的特征抽取算法和过滤阈值设定方法.实验结果表明,较基于关键词的搜索引擎而言,该系统能充分考虑用户的兴趣偏好(示例),长期、主动地向用户提供更加准确的Web信息获取服务.  相似文献   

17.
基于Web的流体仿真   总被引:4,自引:0,他引:4  
提出了应用Java,ActiveX和HTML作为开发工具 ,开发基于Web的流体仿真软件包的方法 ,运用流函数和涡函数分析了CFD的空穴中瞬态自然对流问题 ,并以此构建一个基于Internet的流体仿真软件包 .  相似文献   

18.
Web信息抽取策略及其实现方法研究   总被引:2,自引:0,他引:2  
从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号