首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于网页正文主题和摘要的网页去重算法   总被引:1,自引:0,他引:1  
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。  相似文献   

2.
网页去重在基于Web企业竞争情报平台中的应用与研究   总被引:1,自引:0,他引:1  
互联网上大量重复网页的存在,严重地影响信息的检索质量.因此提出了一种基于特征码散列的网页去重算法,利用特征码对特征语句集散列以缩小其比较的范围,提高了网页去重的准确性.实验表明该算法准确率高,性能良好,基于上述算法实现了基于Web的企业情报竞争平台中的网页去重.  相似文献   

3.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

4.
基于特征串的网页去重算法   总被引:1,自引:0,他引:1  
用户在互联网中网页检索时,经常会得到大量内容相同的冗余页面,不仅浪费了存储资源,而且给用户带来许多不便。本文对现有的几种重复网页识别技术的优缺点进行了比较,并且重点讨论了基于特征串的网页快速去重算法。  相似文献   

5.
基于可视布局信息的网页噪音去除算法   总被引:13,自引:1,他引:13  
主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比.本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.  相似文献   

6.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

7.
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.  相似文献   

8.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

9.
秦杰 《科学技术与工程》2013,13(8):2250-2253
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。  相似文献   

10.
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。  相似文献   

11.
在传统排序算法的基础上,提出了增加页面时间因素的页面时间排序算法,使用户能更快地得到满意的查询结果.通过与传统相关度算法的分析比较,证实了此方法的可行性,该算法使得检索结果在查准率方面有了较大提高.  相似文献   

12.
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的...  相似文献   

13.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

14.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

15.
基于语义分层迭代法的网页挖掘技术   总被引:1,自引:0,他引:1  
提出了一种基于页面语义的分层迭代划分方法,并将其运用于网页挖掘,通过把网站页面迭代划分为不同数目节点的多层,选取符合要求的层来进行数据挖掘处理,便于快速定位到该层中的某个节点,该节点就是需要的主要内容。  相似文献   

16.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

17.
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...  相似文献   

18.
传统的排名方法没有考虑用户的喜好、反馈和用户兴趣,很难满足用户的个性化需求.针对这个问题,提出一种新的网页排名方法,将网页的相似度、链接结构信息、用户偏好及用户反馈相结合进行页面排名.实验结果表明,改进的排序算法在一定程度上帮助用户提高检索网页的质量,最大限度地满足用户的需求.  相似文献   

19.
针对传统单纯聚类算法实现网页推荐精确度欠缺的问题, 提出一种基于Web日志挖掘的个性化网页推荐模型, 并实现了相应的网页推荐算法, 算法结合聚类分析和关联规则挖掘, 能有效实现网页推荐. 实验结果表明, 在保障网页页面推荐覆盖率的条件下, 该方法有较高的精确度、 有效性和实用性.  相似文献   

20.
王平根 《科技信息》2010,(31):I0054-I0054,I0059
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号