首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

2.
基于HTML标记信息的主题相关性判定方法   总被引:1,自引:0,他引:1  
从目前互联网的信息发展现状出发,讨论了在信息采集过程中判断要采集的网页与主题的相关性,给出了一个基于HTML标记信息的主题相关性判定模型和算法实现.通过对试验数据分析,算法显示较好性能.  相似文献   

3.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

4.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

5.
网页信息隐藏技术是将网页作为隐蔽通道进行秘密信息传输的一种技术。基于网页结构特点,提出了基于标记字典的网页信息隐藏算法,该算法采用多标记组合的思想,在不增加原始网页大小和算法复杂度的基础上,使网页信息隐藏容量提高了2.5倍,也为网页信息隐藏算法的研究提供了思路。  相似文献   

6.
PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序算法,并把此算法应用到云计算环境中,研究MapReduce编程模型上的PageRank算法流程。  相似文献   

7.
为了提高网页排序算法的准确率,从网络用户对网页的浏览、回复、转载等行为引入用户行为因子,从网页结构关系的角度解决网页的权威性需求。结合用户行为和网页结构分析提出一种改进的PageRank算法BPR(PageRank based on User-behavior)。实验表明,该算法能够有效地解决PageRank排序算法中关于新网页排名过低和网页权威值均分的问题,提高了网页排序的精确性。  相似文献   

8.
针对传统的PageRank算法中存在主题漂移和偏重旧网页的弊端,提出了一种基于改进PageRank算法的微博用户影响力排序方法——TSPR算法.该算法将时间因素作为横向标度,采用TF-IDF方法计算网页间的相似度,并具体分析某个时间段用户搜索主题相似度的变化.通过计算网页PR值的大小,从而对微博用户影响力进行排序.仿真实验结果表明,该算法改善了微博用户影响力排序效果,与此同时,提高了搜索质量和准确率.  相似文献   

9.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

10.
面向主题的网页搜索系统   总被引:13,自引:0,他引:13  
论述了一个面向主题的网页搜索系统(SATWP),该系统与智能代理的辅助下具有搜索,导航,以及信息反馈等功能。在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法,即从网页自身的URL,网页间的关系以及网页的内容来判断。SATWP采用在客户端的智能代理记录用户的浏览行为,并把有关信息反馈给服务器,服务器根据这些信息随时调整数据库中相关网页的重要性顺序,增加了自身的学习功能,试验结果表明,该系统具有较高的准确度。  相似文献   

11.
Google's algorithm on PageRank is analyzed in details. Some disadvantages of this algorithm is presented, for instance, preferring old pages, ignoring special sites and inaccurate judge of hyperlinks pointed out from one page. Furthermore, author's improved algorithm is described. Experiments show that the author's consideration on evaluating the importance of pages can make an improvement over the original algorithm. Based on this improved algorithm a topicspecific searching system have been developed.  相似文献   

12.
根据Web文档分类与人工神经网络理论,设计了一个Web分类挖掘系统。针对BP网络分类器的不足,提出了用径向基函数神经网络对Web页面中的文本信息进行分类的方法。实验初步证明,用径向基函数进行分类比BP算法构造的神经网络更具准确性,有效地提高了分类的正确率。  相似文献   

13.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

14.
徐之光  严华 《科学技术与工程》2020,20(21):8656-8662
为提升NAND闪存使用寿命和存储性能,提出了一种基于双窗口的NAND闪存区管理算法DW-LRU。DW-LRU算法利用4个LRU链表来捕获访问次数和冷热特征,且根据访问新近度将页面分为了6类:冷干净页面、冷脏页面、旧热干净页面、非旧热干净页面、旧热脏页面、非旧热脏页面。算法在冷干净LRU链表上设置了一个静态窗口,避免最近写入缓存区中的冷干净页面被频繁置换出;在热脏LRU链表上设置了一个动态窗口,用来处理长时间没被访问的热脏页面。实验结果表明:与LRU、LRU-WSR、PR-LRU算法相比,DW-LRU算法缓冲区命中率平均提升了16.8%、12.3%、2.8%。DW-LRU算法可以提高缓冲区命中率,减少闪存写操作次数和算法运行时间。  相似文献   

15.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

16.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

17.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

18.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

19.
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD(earth move distance)算法的视觉相似度欺诈网页检测算法,算法将网页在像素级别的相似度比较结果作为依据,判断某网页是否为欺诈网页。在2个实际系统中应用和实践了该算法,通过对9280个网站进行检测,检测出欺诈的正确率为90.90%,结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。  相似文献   

20.
The following paper provides a new algorithm: a result integration algorithm based on matching strategy. The algorithm extracts the title and the abstract of Web pages, calculates the relevance between the query string and the Web pages, decides the Web pages accepted, rejected and sorts them out in user interfaces. The experiment results in dieate obviously that the new algorithms improve the precision of meta-search engine. This technique is very useful to metasearch engine.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号