首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
基于可视布局信息的网页噪音去除算法   总被引:13,自引:1,他引:13  
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比.本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.  相似文献   

2.
支持页面特征伪造识别的钓鱼网页检测方法   总被引:1,自引:0,他引:1  
钓鱼网站是指伪装成合法网站,窃取用户提交的账号、密码等私密信息的网站。基于页面特征识别的钓鱼网站检测方法具有较好的识别准确性,但现有方法对页面特征伪造的情况识别较弱,容易漏判。首先分析了大量钓鱼网站的页面代码,总结了常见的9种页面特征伪造方式,并针对性地提出了支持页面特征伪造识别的钓鱼网站检测方法。该方法对页面渲染后再做特征提取识别,在页面渲染过程中检查URL地址跳转的伪装,通过直接操纵DOM提取iframe内嵌页面的内容,去除页面所有隐藏元素以防止钓鱼攻击者伪造页面关键词。测试结果表明该方法能够去除多种伪装,完成页面特征的准确提取,提高检测的准确率。  相似文献   

3.
李宁 《科技信息》2009,(19):46-47
早期的设计者大多使用表格对页面元素进行定位,但是表格定位也只能解决平面布局中的定位问题,无法解决三维空间定位的需求和浏览器解释的快速响应问题。层的技术可以很好地解决上述问题。本文主要论述了层的基本知识,介绍了层的用法,并在最后给出用层来解决一个考试系统的浮动层的实现方法。  相似文献   

4.
动态生成静态网页技术探索   总被引:1,自引:0,他引:1  
本文介绍了利用动态网页技术生成静态HTML页面的方法.利用这种技术,网站内容管理人员在添加网页时直接利用后台管理发布程序就把页面存放成HTML静态文件,它有生成页面简单、快速的优点.这种技术对于访问量大的网站尤其适用,可以减轻服务器端运行程序和读取数据库的压力,提高了网站的数据存取效率,生成的静态页面也更利于搜索引擎收录.  相似文献   

5.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

6.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

7.
提出一种数值求解非线性抛物型方程初边值问题的多层网格扰动迭代法;该方法有效地结合了多层网格方法和扰动迭代方法,在固定的时间网格层上该方法有二阶敛速,渐近最优;整体计算量为O(MNl),其中M是时间计算层数目,Nl是空间分划细网层节点变量个数;计算误差不传播,且解决了迭代初值的选择问题。  相似文献   

8.
在已有的邮件网络中心化研究中,由于传统的PageRank算法对网络扰动较为敏感,较多关注于评估节点级和链接级的参数,容易受到度值高的干扰节点影响。本文利用复杂网络中心化指标中的核数来分解邮件网络各层,以剔除外层干扰节点,在保留重要成员的基础上减少网络节点规模,降低后续挖掘算法复杂度,并提出了改进的PageRank算法,以解决权值分配偏移问题,定量分析网络核心层的节点并排序,找出电子邮件网络中的重要节点。邮件网络中心性挖掘实验表明,该方法能降低算法复杂度,提高有效性。  相似文献   

9.
提出一种数值求解非线性抛物型方程初边值问题的多层网格扰动迭代法;该方法有效地结合了多层网格方法和扰动迭代方法,在固定的时间网格层上该方法有二阶敛速,渐近最优;整体计算量为O(MN_t),其中M是时间计算层数目,N_t是空间分划细网层节点变量个数;计算误差不传播,且解决了迭代初值的选择问题。  相似文献   

10.
无界问题自然边界元与有限元的迭代耦合   总被引:1,自引:0,他引:1  
根据区域分解算法的思想,研究了自然边界元与有限元耦合法的D-N迭代原理,并编写了耦合法计算程序,求解了带方孔的无界平面弹性问题。算例计算结果表明:当计算半径R取为孔洞尺寸的1.2倍,耦合法网格划分时取144个节点即可较好的逼近收敛值,而相同收敛效果有限元网格划分时需取272个节点。并且,在迭代过程中,松弛因子的选取对迭代收敛速度的影响很大,当松弛因子取0.2时,迭代收敛速度最快。  相似文献   

11.
 因特网上的数据越来越多、越来越复杂,这些异构、动态、分布的信息使得传统数据挖掘方式已经不能达到实际要求。本文提出了一种面向web 数据挖掘的改进型迭代算法,将迭代方法与多服务器并行算法进行结合,并采用该算法建立了一个支持并行关联规则的web 数据挖掘模型,融合存储节点本地计算的思想。实验证明,该模型能够提高web 数据挖掘的效率,并有随着数据量增加执行率升高的特点。  相似文献   

12.
基于WEB的数据挖掘研究综述   总被引:5,自引:0,他引:5  
运用数据挖掘技术进行Web数据挖掘成为数据分析领域中的一个重要研究热点,与传统数据相比较,Web数据具有结构复杂、形式多样与内容广泛等特点,且用户对其需求亦是五花八门的,这对数据分析领域提出了更大的挑战.基于为研究Web数据挖掘提供参考,将Web数据挖掘粗略地分为三类:内容挖掘、结构挖掘和使用挖掘,并分别进行了综述,然后根据当前的应用现状分析了这一研究领域的几个研究方向.  相似文献   

13.
基于DOM树及行文本统计去噪的网页文本抽取技术   总被引:1,自引:0,他引:1  
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。  相似文献   

14.
Internet的发展给传统的数据挖掘领域提出了很多新的研究课题.Web挖掘技术就是传统的数据挖掘技术与计算机网络技术的结合.Web使用记录挖掘是从日志文件中挖掘出有用的信息,这些信息可以帮助站点设计者设计站点和服务,有益于商业网站开展有针对性的电子商务活动.介绍了Web挖掘的概念和分类,说明了Web使用记录挖掘的过程和意义,并指出了Web使用记录挖掘的研究趋势.  相似文献   

15.
介绍了数据挖掘、网络挖掘和网络用法挖掘技术的理论发展及其它们在实际中的应用情况,并在挖掘算法的改善提高过程中进行了探索性的研究.为了有效地帮助Web站点管理员管理Web站点,帮助商家调整整个市场策略,提出了一种在给定的Web日志中利用事务数据库中的挖掘序列模式的方法来发现所有的大访问路径的算法.结果证明该算法是行之有效的.  相似文献   

16.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

17.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响.  相似文献   

18.
基于Web的数据挖掘应用模式研究   总被引:8,自引:0,他引:8  
如何对Web上的海量信息进行高效的应用 ,使之能做到信息处理的智能化、个性化、自动化 ,是当今数据挖掘技术的最重要的应用。本文从分析Web上数据信息的特点入手 ,研究面向Web的数据挖掘需解决的主要问题 ,提出了一种基于Web数据挖掘的应用模式框架 ,并着重从功能的角度介绍了Web数据挖掘的演进过程。  相似文献   

19.
基于web数据挖掘的Apriori算法及其优化算法研究   总被引:1,自引:0,他引:1  
从数据挖掘中的关联规则概念入手,介绍了关联规则挖掘中的核心算法Apriori实现过程,针对出现的瓶颈又介绍了几种Apriori算法的优化方法,最后指出了末来关联规则挖掘算法的研究方向.  相似文献   

20.
Web社区是由对于同一主题感兴趣的人或组织创作的Web页的集合。提出了一种比较严格的Web社区表示法,同时对社区内和社区外的节点进行约束,解决了以往社区定义边界模糊的问题。设计了与该定义对应的Web社区挖掘算法。算法充分考虑了Web图的性质,并在构造好的网络流上采用最大流/最小割算法,从而得到所要的社区。实验表明,该方法可以挖掘出较大而且有意义的社区。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号