共查询到16条相似文献,搜索用时 93 毫秒
1.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 相似文献
2.
3.
李洋 《大众科学.科学研究与实践》2007,(24)
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。 相似文献
4.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 相似文献
5.
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。 相似文献
6.
基于样本实例的Web信息抽取 总被引:13,自引:1,他引:13
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器. 相似文献
7.
基于DOM的Web信息抽取方法研究 总被引:1,自引:0,他引:1
李洋 《大众科学.科学研究与实践》2007,(20)
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。 相似文献
8.
基于 DOM 的 Web 信息抽取规则的构造与实现 总被引:1,自引:0,他引:1
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. 相似文献
9.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高. 相似文献
10.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。 相似文献
11.
谭龙江 《四川理工学院学报(自然科学版)》2011,24(1):58-61
历史信息、即时信息以及流言往往冲淡网站中的主题思想,导致信息隐藏等问题。为解决上述问题,提出了网站信息抽取系统的结构模型、数据结构和处理流程;该模型采用信息抽取技术,从相关网页中抽取出带有主观倾向的主题信息;采用贝叶斯网络对客户需求进行决策与预测分析。仿真测试与客户应用证明,该模型能较准确的抽取网站中的客户倾向、有较好的及时性。 相似文献
12.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。 相似文献
13.
蛋白质多序列比对是一种重要的生物信息学工具,在生物的进化分析以及蛋白质的结构预测方面有着重要的应用。各种比对算法在这个领域都取得了很大的成功,但是每种算法都有其固有的缺陷。提出置换距离法,对当前流行的几种蛋白质多序列比对算法进行对比评价。由于置换距离法仅关注于不同蛋白质间进化距离的相对次序,而不考虑这些进化距离之间的细微差异,因而得到的评价结论更具有鲁棒性。另外,采用最长公共子序法度量置换距离可以比较准确的反映不同置换之间的差异性。基于该算法,对Dialign, Tcoffee, ClustalW和Muscle多序列比对算法进行了性能评估。 相似文献
14.
Web信息抽取策略及其实现方法研究 总被引:2,自引:0,他引:2
陈俊彬 《科技情报开发与经济》2008,18(23):169-170
从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。 相似文献
15.
为有效解决大尺度基因组序列的比对分析,提出了一种基于遗传算法的序列比对方法。该算法通过对序列比对问题进行编码,将其转换成了搜索空间中的一个优化问题。实验结果表明,这种新的比对算法是有效的,它在占用少量内存的情况下可以获得近似于Need lem an-W unsch算法结果的最优解。 相似文献
16.
序列比对是生物信息学中基本的信息处理方法,对于发现生物序列中的功能、结构和进化信息具有重要的意义。该文对典型的双序列比对算法以及多序列比对算法进行了描述和评价;针对目前序列比对算法普遍存在的不足,提出了一种新的思想--基于知识表达系统的序列比对研究,应用知识表达系统对序列比对相似性发现进行定义及其处理。 相似文献