首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

2.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

3.
Tutte定理在匹配理论中占有中心位置,刻画了一般图有完美匹配的充分必要条件.Tutte-Berge公式是任意图上关于最大匹配的一个核心结果,确定了匹配数的一个最大最小关系,且提供了任意图中匹配数的一个紧的上界.Tutte定理常常被认为是Tutte-Berge公式的一个特殊情形.提供Tutte定理与TutteBerge公式的一个简单而完整的等价性证明,从而说明Tutte-Berge公式也是Tutte定理的一个特殊情形.作为Tutte公式的一个应用,考察并总结了任意正则图中是否具有完美匹配的情况,结果包含了著名的Petersen定理.  相似文献   

4.
介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。  相似文献   

5.
常用的网页布局方法主要有:表格和布局表格,框架布局,图层布局。传统的表格技术进行网页布局简单直观、易于理解,但布局修改困难。而最新的CSS+DIV网页设计技术与传统布局技术相比,优势十分明显,可以实现网页内容与样式定义的分离,灵活性也更高。该文给出了CSS和DIV的概念,对比了不同的网页布局方法,说明了CSS+DIV布局的优点,并通过一个实例说明了CSS+DIV网页布局的实现方法。  相似文献   

6.
基于网页分块技术主题爬行器的实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎搜索到的结果过多、 与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上.  相似文献   

7.
设计基于Java的跨平台可视化网页设计器。使用最新的Java开发工具JDK1.2,根据当前的输入信息,完成网页设计器应具有的各项功能。该网页设计器汇聚了目前流行的各种网页设计器的优点,同时具有其独特的特性--跨平台,可使用在多种操作系统上,实现了一个功能齐全的网页设计器。  相似文献   

8.
完美匹配的计数理论在量子化学、晶体物理学和计算机科学中都有重要的应用,对此问题的研究具有非常重要的理论价值和现实意义.但是,一般图的完美匹配计数问题已经被证实为NP-难问题.Lova'sz和Plummer曾提出关于完美匹配计数的一个猜想:任意2-边连通3-正则图都有指数多个完美匹配.本文用划分、求和再嵌套递推的方法给出了3类特殊图完美匹配数目的显式表达式,从而验证了Lova'sz和Plummer猜想在这3类图上的正确性.  相似文献   

9.
图的完美匹配计数问题是匹配理论研究的一个重要课题,此问题有很强的物理学和化学背景.LovszL和Plummer M就曾提出关于完美匹配计数的一个猜想:任意2-边连通3-正则图都有指数多个完美匹配.但是,一般图的完美匹配计数问题已经被证明了是NP-难问题.用划分,求和,再嵌套递推的方法给出了2类特殊偶图完美匹配数目的显式表达式,从而验证了LovászL和Plummer M猜想在这2类图上的正确性,所给出的方法,可以计算出许多偶图的所有完美匹配的数目.  相似文献   

10.
新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。  相似文献   

11.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

12.
为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类.  相似文献   

13.
在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块:页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。  相似文献   

14.
The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages.  相似文献   

15.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

16.
以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.  相似文献   

17.
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性.  相似文献   

18.
CSS(Cascading Stylesheets,层叠样式表)是一种网页制作新技术,是网页设计中不可少的工具之一。层叠样式表(CSS)有一系列格式规则,它们控制网页内容的外观。使用CSS能够简化网页的格式代码,加快下载显示的速度,减少需要上传的代码数量,减少重复劳动的工作量。介绍了CSS样式的常用技巧和CSS最基本的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号