期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

景寒星陈少红俞琨《华东师范大学学报(自然科学版)》2010,2010(5):96-102

针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性. 相似文献

2.

网页正文信息抽取新方法 总被引：6，自引：0，他引：6

宋明秋张瑞雪吴新涛李文立《大连理工大学学报》2009,49(4):594-597

基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性. 相似文献

3.

Tutte定理与Tutte-Berge公式的等价性证明

《曲阜师范大学学报》2016,(2)

Tutte定理在匹配理论中占有中心位置,刻画了一般图有完美匹配的充分必要条件.Tutte-Berge公式是任意图上关于最大匹配的一个核心结果,确定了匹配数的一个最大最小关系,且提供了任意图中匹配数的一个紧的上界.Tutte定理常常被认为是Tutte-Berge公式的一个特殊情形.提供Tutte定理与TutteBerge公式的一个简单而完整的等价性证明,从而说明Tutte-Berge公式也是Tutte定理的一个特殊情形.作为Tutte公式的一个应用,考察并总结了任意正则图中是否具有完美匹配的情况,结果包含了著名的Petersen定理. 相似文献

4.

搜索引擎的渐增式爬行和备份式更新模式

沈文勤李庆超邵志清《华东理工大学学报(自然科学版)》2004,30(3):284-287

介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。相似文献

5.

用CSS＋DIV开发技术实现网页布局

丁海燕袁国武张泽华赵征鹏邱莎《实验科学与技术》2012,10(4):39-41

常用的网页布局方法主要有：表格和布局表格,框架布局,图层布局。传统的表格技术进行网页布局简单直观、易于理解,但布局修改困难。而最新的CSS＋DIV网页设计技术与传统布局技术相比,优势十分明显,可以实现网页内容与样式定义的分离,灵活性也更高。该文给出了CSS和DIV的概念,对比了不同的网页布局方法,说明了CSS＋DIV布局的优点,并通过一个实例说明了CSS＋DIV网页布局的实现方法。相似文献

6.

基于网页分块技术主题爬行器的实现 总被引：1，自引：0，他引：1

李晓亚赫枫龄左万利《吉林大学学报(理学版)》2007,45(6):959-965

针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上. 相似文献

7.

跨平台可视化网页设计器的设计与实现

曹元大韩雪来《北京理工大学学报》2001,21(1):105-108

设计基于Java的跨平台可视化网页设计器。使用最新的Java开发工具JDK1．2,根据当前的输入信息,完成网页设计器应具有的各项功能。该网页设计器汇聚了目前流行的各种网页设计器的优点,同时具有其独特的特性－－跨平台,可使用在多种操作系统上,实现了一个功能齐全的网页设计器。相似文献

8.

3类3-正则图中的完美匹配数

唐保祥任韩《华中师范大学学报(自然科学版)》2014,48(5):637-642,649

完美匹配的计数理论在量子化学、晶体物理学和计算机科学中都有重要的应用,对此问题的研究具有非常重要的理论价值和现实意义.但是,一般图的完美匹配计数问题已经被证实为NP-难问题.Lova'sz和Plummer曾提出关于完美匹配计数的一个猜想:任意2-边连通3-正则图都有指数多个完美匹配.本文用划分、求和再嵌套递推的方法给出了3类特殊图完美匹配数目的显式表达式,从而验证了Lova'sz和Plummer猜想在这3类图上的正确性. 相似文献

9.

2类特殊偶图完美匹配的计数

唐保祥任韩《烟台大学学报(自然科学与工程版)》2013,26(2):83-86

图的完美匹配计数问题是匹配理论研究的一个重要课题,此问题有很强的物理学和化学背景.LovszL和Plummer M就曾提出关于完美匹配计数的一个猜想:任意2-边连通3-正则图都有指数多个完美匹配.但是,一般图的完美匹配计数问题已经被证明了是NP-难问题.用划分,求和,再嵌套递推的方法给出了2类特殊偶图完美匹配数目的显式表达式,从而验证了LovászL和Plummer M猜想在这2类图上的正确性,所给出的方法,可以计算出许多偶图的所有完美匹配的数目. 相似文献

10.

学生成绩管理系统

张文龙《科技咨询导报》2009,(27):136-137

21世纪是信息高度交流与发展的时代,计算机系统则在信息时代扮演着极为重要的脚色,随着计算机的不断发展,计算机以渗透到各个领域。学生成绩管理系统是一个教育单位不可缺少的部分,它的内容对于学校的决策者和管理者来说都至关重要。本论文叙述到的学生成绩管理系统是用IIS＋ASP网页编程＋ACCESS数据库＋SQL查询语言实现的。相似文献

11.

基于自动生成模板的Web信息抽取技术

张彦超刘云李勇沈波《北京交通大学学报(自然科学版)》2009,33(5)

在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率. 相似文献

12.

网页超链抓取及自动分类技术实现

顾潇华郭军城《河北大学学报(自然科学版)》2007,27(1):99-102

为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类. 相似文献

13.

基于校园 BBS 的舆情系统爬虫应用研究

于淑云《长春工程学院学报(自然科学版)》2016,17(2):95-98

在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块：页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。相似文献

14.

Automatic Data Extraction from Websites for Generating Aquatic Product Market Information

袁红春陈莹孙越夫《东华大学学报(英文版)》2006,23(6):15-19

The massive web-based information resources have led to an increasing demand for effective automatic retrieval of target information for web applications. This paper introduces a web-based data extraction tool that deploys various algorithms to locate, extract and filter tabular data from HTML pages and to transform them into new web-based representations. The tool has been applied in an aquaculture web application platform for extracting and generating aquatic product market information. Results prove that this tool is very effective in extracting the required data from web pages. 相似文献

15.

Java XML与面向Web的智能数据抽取 总被引：4，自引：1，他引：4

文艺刘循《四川大学学报(自然科学版)》2004,41(2):315-318

采用标准Web技术——HTML，XML和Java，开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法．该方法标识数据源并把它映射成XHTML，根据一定的相关关系查找数据内的引用点并进行智能数据抽取，将数据映射成XML．这种数据抽取方法比较简单，通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点，可以较为方便地建立一个强壮的数据抽取系统．相似文献

16.

基于元搜索引擎技术的新闻对象抽取方法研究

刘敏何渝《北京工商大学学报(自然科学版)》2008,26(3):66-69

以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上. 相似文献

17.

一种欺骗网页检测判定算法

余小燕陆全华《成都大学学报(自然科学版)》2009,28(4):332-335

欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性. 相似文献

18.

浅析CSS样式在网页设计中的应用

吴晓燕《达县师范高等专科学校学报》2009,19(2):46-48

CSS（Cascading Stylesheets，层叠样式表）是一种网页制作新技术，是网页设计中不可少的工具之一。层叠样式表（CSS）有一系列格式规则，它们控制网页内容的外观。使用CSS能够简化网页的格式代码，加快下载显示的速度，减少需要上传的代码数量，减少重复劳动的工作量。介绍了CSS样式的常用技巧和CSS最基本的应用。相似文献