首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
实现站内搜索引擎的关键一步是信息的自动采集.站内信息采集技术是通过分析网页的HTML代码,获取网内的超链信息,使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.系统在再次运行中通过应用属性对比技术,在一定程度上避免了对网页的重复分析和采集,提高了信息的更新速度和搜全率.  相似文献   

2.
本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树独立的方法,其目的是检测出Web内容结构,实验结果令人满意。基于分块后的页面,利用一个经验交互式的噪音去除算法Page_CN,定义页面的噪音区间,去除噪音区域,得到更加明确的主题区域。  相似文献   

3.
对Web网页的查询及信息提取   总被引:4,自引:0,他引:4       下载免费PDF全文
比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 .  相似文献   

4.
基于特征相关学习的网页信息提取方法   总被引:1,自引:0,他引:1  
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.  相似文献   

5.
基于HTML Parser的网页信息提取技术研究   总被引:1,自引:0,他引:1  
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

6.
基于智能的网页信息提取系统的研究与设计   总被引:1,自引:0,他引:1  
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.该文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效的分类相似网页和提取网页信息.  相似文献   

7.
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息.  相似文献   

8.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

9.
多级分块尺寸下的指纹方向信息提取算法   总被引:4,自引:4,他引:4  
作为一种重要的生物特征识别手段,自动指纹识别近年来得到了广泛的关注并取得很大的进展.指纹方向信息提取是自动指纹识别技术研究内容中一个非常重要的内容,但从低质量指纹图像中准确、可靠地提取方向信息却是一件很困难的事情.提出了一种多级分块尺寸下的指纹方向信息提取算法,依据大分块尺寸下所提取的方向信息对小分块尺寸下所提取的方向信息进行可靠性判断,然后进行相应的调整.实验结果证明,即使对于低质量指纹图像,该算法也可以快速、准确的提取指纹方向信息.  相似文献   

10.
基于填充标记的自适应Web信息提取   总被引:1,自引:0,他引:1  
提出一种自适应Web信息提取算法,基于自底向上规则模块层叠,通过在提取模板中填充一定数量有助于识别信息类别的SGML标记,较好地覆盖Web页中不可见信息,有效控制自适应过程中信息的过少和溢出,实现智能化Web信息提取.  相似文献   

11.
基于Web Services的综合信息采集平台   总被引:2,自引:0,他引:2  
为了解决目前企业信息系统中分散、异构信息源的信息共享以及各个分散异构信息源中的数据不能被有效集成的问题,在Web Services的基础上采用数据即服务(Data As Service)的概念,构建了一种面向服务的数据集成体系结构,根据此体系结构结合Web服务技术设计了综合信息采集平台系统.该系统在实现异构系统、异构信息源间信息的共享的基础上,有效地集成了异构信息源的数据,而且形成了统一的数据视图提供给用户.最后给出了综合信息采集平台系统的一个应用实例.  相似文献   

12.
该实验用20个被试研究了影响短时记忆信息提取的因素,结果发现,判断标准对短时记忆信息提取有显著影响,判断标准对短时记忆信息提取的影响可能说明了在不同的判断标准下,短时记忆信息存储的方式不同,该实验再一次证明,短时记忆信息提取不是以搜索为基础。  相似文献   

13.
基于Web的教学网页设计要点浅析   总被引:5,自引:0,他引:5  
随着网络教育的发展教学网页设计规范化已刻不容缓。为加速教学网页制作规范化的进程,结合Web的特点,教学的规律、Web网页设计和使用的经验,对基于Web的教学网页设计要点进行了论述。  相似文献   

14.
Web信息提取中多策略学习算法的研究   总被引:1,自引:1,他引:1  
将一种新的机器学习方法-多策略学习算法应用于Web信息提取领域,在原有的机械学习,统计学习和相关学习等三种机器学习法基础之上充分考虑各学习方法的利弊,将三者有机结合,使得结合后的新算法在提取Web信息时比结合前任一单一机器学习方法都更有效、更准确。  相似文献   

15.
提出了针对小范围的网页文本提取的一种方法.结合对东方财富网的股评网页的HTML文件进行网页文本分析,设计出基于特定领域的网页结构特征的网页文本提取算法.该算法的设计与普通的广义网页提取算法的设计相比,设计简单,针对性较强,提取效率较高,且对股票市场的网页信息的识别与处理起到基础性的作用.  相似文献   

16.
本文介绍了GPRS信息采集传输系统的功能与原理,以及其在硬件和软件上的设计与实现;同时,介绍了其应用领域及应用方法。该系统给工程上稳定可靠的传输数据需求予了高效而可靠的解决方案。  相似文献   

17.
基于DEM和ArcGIS的水文信息提取方法研究   总被引:3,自引:0,他引:3  
主要介绍了利用ArcGIS 9.0 Hydrology水文处理工具包在DEM中提取河网水系的方法,阐述了其基本原理,并以米角河流域为研究区域进行了河网生成实验,  相似文献   

18.
19.
基于纹理的面向对象分类的稀土矿开采地信息提取   总被引:1,自引:0,他引:1  
彭燕  何国金  曹辉 《科学技术与工程》2013,13(19):5590-5596
原地浸矿法和池浸法/原地堆浸法(非原地浸矿法)是江西省稀土矿开采常用的方式。以江西省定南县为研究区,根据稀土矿开采方式和特点,采用面向对象分类的方法,结合纹理信息、面积大小及上下文关系等特征,对研究区2010年的ALOS影像进行稀土矿开采地的信息提取,有效区分了原地浸矿法和非原地浸矿法开采区,且两者的总体精度高达85%。并采用回溯法提取了2001年的稀土矿开采地的信息。最后根据稀土矿区分布图,对稀土矿开采现状以及2001—2010年的十年开采变化情况进行了分析。该研究可为该区域及相关矿产资源开采区的环境遥感监测提供数据支持和技术借鉴。  相似文献   

20.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号