首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树独立的方法,其目的是检测出Web内容结构,实验结果令人满意。基于分块后的页面,利用一个经验交互式的噪音去除算法Page_CN,定义页面的噪音区间,去除噪音区域,得到更加明确的主题区域。  相似文献   

2.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

3.
一种基于块分析的网页去噪音方法   总被引:2,自引:1,他引:2  
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。  相似文献   

4.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

5.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

6.
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.  相似文献   

7.
针对金融服务领域面临的严峻信息安全挑战,以及现有钓鱼网页检测方法的不足,提出一种基于支持向量机(support vector machine,SVM)的金融类钓鱼网页检测方法.采用网页渲染去除常见的页面特征伪装,提取统一资源定位符(uniform resource locator,URL)信息特征、页面文本特征、页面表单特征以及页面logo图像特征,构建特征向量训练SVM分类器模型,实现对金融类钓鱼网页的识别.在特征提取过程中,利用适合中文的多模式匹配算法AC_SC(AC suitable for chinese)提高文本匹配效率,并采用加速鲁棒特征(speeded-up robust feature,SURF)算法实现logo图像的特征提取与匹配.多方法实验结果对比表明,该方法针对性更强,能达到99.1%的检测准确率、低于0.86%的误报率.  相似文献   

8.
 在设计网页之前,要对网页进行合理布局,所谓“网页布局”,就是给将要出现在网页中的所有元素进行定位.网页布局是网页精彩与否的重要因素之一.网页布局关系着内容的编排和页面的排版,它直接影响着网页信息的浏览及体现出网页的美感.介绍了几种不同的网页布局方法,并用实例说明了DIV+CSS实现网页布局的方法.  相似文献   

9.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

10.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

11.
《海牙规则》确立了海运承运人对航海过失造成的货损免责,航海过失可分为驾船过失和管船过失。但承运人对管货过失造成的货损应承担赔偿责任。区分航海过失,尤其是管船过失与管货过失,成为一项极其重要的任务。近百的来,有关于此的争议不同涌现,国际上要求废除航海过失免责的呼声日益高涨,《汉堡规则》虽废除了航海过失免责,但亦未被国际社会所接受。文章探讨了航海过失与管货过失的区分标准,并尝试建立一种新的承运人责任制度。  相似文献   

12.
党内关系的和谐状态不仅是衡量党的自身建设成效的重要标准,更是提高党的执政能力建设和永葆党的先进性的内在要求。党内和谐是党群和谐的根本,对党群关系和谐与社会和谐起着重要的示范和带动作用。要以党内和谐促进社会和谐,以优良的党风促政风带民风,必须通过党群关系的良性互动来实现。  相似文献   

13.
党内关系的和谐状态不仅是衡量党的自身建设成效的重要标准,更是提高党的执政能力建设和永葆党的先进性的内在要求.党内和谐是党群和谐的根本,对党群关系和谐与社会和谐起着重要的示范和带动作用.要以党内和谐促进社会和谐,以优良的党风促政风带民风,必须通过党群关系的良性互动来实现.  相似文献   

14.
通过对政府从国有银行退出的艰巨性和国有银行和国有企业之间建立真正债关系的艰巨性的角度,对国家通过注资的方式改造国有商业银行的有效性进行了深入的分析,结果表明:我国国有商业银行的改革决不是简单通过注资就可以一蹴而就的。根据分析的结果提出了对国有商业银行改革的意见和建议。  相似文献   

15.
本文主要论述了智能化电能表及自动抄表系统的组成、特点,以及目前市场上使用的几种主要智能化电能表和自动抄表系统的方式及其发展趋势.  相似文献   

16.
农民收入问题影响到农民的生活水平,影响到农业生产能力,是“三农”的根本问题。从农民、农村、农业三个角度提出了增加农民收入的对策建议。  相似文献   

17.
建设以公众为中心的电子政府   总被引:4,自引:0,他引:4  
从我国电子政府的发展现状出发,以上海市各级政府的电子政务为例,对我国各级电子政府建设在迅速发展的同时所呈现出的一些问题及面临的障碍进行分析,并提出以满足公众需求为基点,建设以公众为中心的电子政府,最后提出相应对策与建议,以利真正提高政府的绩效,让公众从中获得真正的收益.  相似文献   

18.
浅谈语言在馆员与读者沟通中的运用   总被引:4,自引:0,他引:4  
阐述了正确运用符号语言与体态语言对改善馆员服务态度、提高馆员服务质量的重要作用。  相似文献   

19.
新闻语言是通过新闻媒介,向人们报道新近发生的事实、传播新闻信息的载体之一。它作为媒体传递信息的工具,是一种对社会影响颇大的公共语言行为。时下新闻语言却出现了一系列的问题,已经严重的影响到新闻媒体的自身发展和社会用语的纯净。为了使新闻语言沿着科学、健康的方向发展,本文主要具体阐述了新闻语言弊病的表现形式和原因,希望能给新闻语言的规范提供帮助。  相似文献   

20.
作为二十世纪五六十年代国内最权威的诗歌刊物《,诗刊》无疑代表了当时的文学潮流,并引领着文学的走向。研究自1957年1月到1965年停刊的《诗刊》,可以清晰地把握当时的诗坛动态和文学环境,不失为五六十年代中国文学的一份生动史料。本文着重考察的是《诗刊》如何以对“五四”以来新诗人的重估和对新诗史的重构,完成了新诗在五六十年代的历史叙述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号