首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
一个完全数据库驱动的Web发布平台   总被引:1,自引:1,他引:0  
介绍一个完全数据库驱动的Web发布平台,使用面向对象的方法对Web页面的结构及内容进行了分析,将其作为永久对象存储在数据中,实现了网站的哪布的完全数据区动。  相似文献   

2.
针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.提出一种新的Web对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关.通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%.  相似文献   

3.
 以Xilinx公司的现场可编程门阵列(FPGA)作为硬件平台,借助其EDK开发工具,搭建Web服务器运行系统.基于HTTP协议,采用TCP/IP套接字编程技术,实现个人计算机与目标板的网络通信,该系统应用在高速图像采集系统中,经过设备的网口远程访问嵌入式Web服务器,通过输入控制命令,以及将系统相应的图像数据显示在上位机的Web监控页面上,实现监控远端现场图像数据和设备工作状态.本文对系统功能,系统的硬件设计、软件设计,以及Xilkernel操作系统、LwIP协议栈、XilMFS文件系统,Socket网络编程等进行了介绍.经过试验测试在主机端实现浏览存储在嵌入式Web服务器中的静态页面;同时根据浏览器中输入参数,控制指示灯的熄灭;并浏览存储在SDRAM中的图像数据,设计达到预期的效果.  相似文献   

4.
主流的的网络硬盘实现方式有多种,但没有使用FTP作为基础,在Web页面中进行文件管理的解决方案.基于开源软件的网络硬盘系统,是实现网络硬盘系统的一种新思路,新技术,采用开源的FTP软件作数据存储,采用数据库MySQL对相关信息进行管理,使用Perl语言编程,使用户能够方便的在Web页面中进行数据的管理,系统可以安全可靠的提供网络硬盘服务,并易于后续的研发与扩展.  相似文献   

5.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

6.
用户对Web站点的访问代表了用户对Web站点上页面的访问兴趣,这种兴趣程度可以通过用户对Web站点上页面的浏览顺序及页面上的浏览时间表现出来.通过对Web用户访问路径的分析,提出一种基于浏览路径及浏览时间的相似度的度量方法.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader聚类算法Web用户的有效性.  相似文献   

7.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据.  相似文献   

8.
马涛 《科技信息》2009,(32):242-243,245
测试是保证Web应用质量的重要手段,收集测试数据是测试中至关重要的一步。本文提出一套基于Session的测试数据收集方法。当用户打开待测试页面时,我们检测请求中是否存在我们分配的Session;否,则为该用户分配一个特殊的Session。随后,我们把用户操作相关的数据关联到该Session并存储。测试时,我们可根据需要抽取数据生成测试用例。本文用一个原型工具实现了该方法,并应用在大型的Web应用中。实验结果表明该方法收集的测试数据能给测试用例生成带来很大便利。  相似文献   

9.
面对现已存储的大量原始数据,缺少相应的工具对这些数据中所蕴含的珍贵信息进行分析和挖掘.针对这种需求,以上海市新生儿数据为例,建立了基于Web的新生儿可视化数据挖掘系统,提出了Web可视化页面的实现方法.通过对影响新生儿出生的各方面因素的分析,为优生优育提供了量化的依据,方便决策人员了解上海市各区县的新生儿出生状况,并做出正确决策.  相似文献   

10.
主题蜘蛛的设计与实现   总被引:1,自引:0,他引:1  
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.  相似文献   

11.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

12.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

13.
基于特征相关学习的网页信息提取方法   总被引:1,自引:0,他引:1  
为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.  相似文献   

14.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

15.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

16.
一种基于块分析的网页去噪音方法   总被引:2,自引:1,他引:2  
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。  相似文献   

17.
Web日志预处理中会话识别的优化   总被引:3,自引:0,他引:3  
针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

18.
Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value.  相似文献   

19.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

20.
The following paper provides a new algorithm: a result integration algorithm based on matching strategy. The algorithm extracts the title and the abstract of Web pages, calculates the relevance between the query string and the Web pages, decides the Web pages accepted, rejected and sorts them out in user interfaces. The experiment results in dieate obviously that the new algorithms improve the precision of meta-search engine. This technique is very useful to metasearch engine.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号