首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于URL类型优先级的入口页面查询算法   总被引:1,自引:0,他引:1  
入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的. 依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型. 通过URL类型优先级(URL type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系. 据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub page). 对比实验数据表明,PERS算法对检索的性能有较大提高.  相似文献   

2.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

3.
W eb日志挖掘是将数据挖掘技术应用到W eb服务器的日志中,发现web用户的行为模式.在介绍了典型的数据预处理技术的基础之上,指出Fram e页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Fram e页面过滤算法消除其影响.通过实验数据对该算法进行验证,说明Fram e页面过滤算法可以显著地提高W eb日志挖掘结果的兴趣性.  相似文献   

4.
SVM-KNN分类器在网页分类中的应用   总被引:1,自引:1,他引:0  
为了提高中文网页自动分类的分类精度,将SVM-KNN方法用于中文网页分类.提出了一种中文网页的表示方法,在将下载的网页全部表示为向量空间的向量后,用SVM构造了一个多类分类器.在分类时通过在特征空间计算网页所表示的向量和分界面的距离决定采用SVM方法还是KNN方法对其分类.实验证明该方法是一种有效的方法,对网页分类的各类,使用该方法均比使用SVM方法具有更高的分类精度,同时能缓解SVM训练时对核参数的选择困难问题.  相似文献   

5.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

6.
随着移动计算的发展,通过手持设备存取Web将越来越普遍。手持设备的限制和多样性要求同一Web页面具有不同的表现形式,因此需要对Web页面进行选择、拆分等自适应操作以满足手持设备能力的限制。为了提高自适应页面的质量,提出一个两阶段页面拆分算法。该算法在保证自适应页面正确性的基础上,提出量化评估函数以保证每个小页面的语义连贯性和最优的资源利用率,从而增加页面的可用性。该算法已应用于多个样本页面,结果表明拆分结果具有较好的可用性。  相似文献   

7.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

8.
由于网页中存在着许多“噪声”信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块,对分类 而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.  相似文献   

9.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

10.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

11.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

12.
Internet动态行为的探索   总被引:1,自引:0,他引:1  
Internet中各种错综复杂的局部的交互作用会导致Internet涌现出大规模网络整体行为,WWW(world wide web)是目前最通用的Internet服务,WWW冲浪的研究表明用户的冲浪行为可以用一个模型来描述,该模型假定只有当前网页的价值足够大时,用户才继续冲浪到下一个网页,根据用户个体的冲浪模型可以得出大面积的冲浪规律-用户在网站内访问的网页数量的概率分布,这个冲浪规律和传播激励网络(spreading activation networks)结合起来,将互相链接的网页看作一个传播激励网络,将WWW冲浪用户比作激励,还可用于网页点击率的预测,通过计算机仿真实验预测了网站内网页的点击率,并发现网站内网页点击率的预测结果遵循指数分布规律,这正是实际中观察到的结果。  相似文献   

13.
网页之间的链接为Web数据挖掘提供了丰富信息,通过链接关系来加强中文网页分类的效果.由于网页的编写存在随意性和不规范性,并非所有的链接页面与源页面都有主题相关性.通过比较页面与其链接页面的相似性,优选出相似度较高的链接子集,利用得分向量对基于内容的分类结果进行修正.基于北大天网数据集的实验结果表明,优选链接页面的分类方法对于训练样本较少的类别在分类精度上有一定的提高.  相似文献   

14.
由于Internet的复杂性,至今还没有一个精确的模型用来描述Web的性能.要想得到一个比较精确的Web页面获取延时模型,必须以传输层的TCP模型为基础,再结合HTTP层的WRDM模型来建模.文中提出了一个结合TCP和HTTP性质的数学模型和算法.从模型出发,指出TCP、HTTP等协议以及网络上各种算法的改进方向.  相似文献   

15.
提出了一种基于噪音清除的网页削重算法.首先应用空间向量模型,仅仅使用<特征词,权重>二元组表示网页,降低削重算法的时空复杂度;其次,通过一组启发式规则来消除网页中包含的“噪音”,消除了无关信息对网页核心内容的干扰.  相似文献   

16.
随着互联网的迅速发展,对网页正确分类显得越来越重要。网页分类的一个难点就是特征空间的维数比较大,支持向量机(SVM)分类方法显示出比其它分类方法更好的性能,但是训练样本时却花费了比其它算法更多的时间。本文提出了一种基于选择最确信的词来预测一个文本的类别的特征提取方法,通过中文文本实验,结果表明在不降低分类准确性的前提下,缩短了训练时间。  相似文献   

17.
The task of clustering Web sessions is to group Web sessions based on similarity and consists of maximizing the intra-group similarity while minimizing the inter-group similarity. The first and foremost question needed to be considered in clustering Web sessions is how to measure the similarity between Web sessions. However, there are many shortcomings in traditional measurements. This paper introduces a new method for measuring similarities between Web pages that takes into account not only the URL but also the viewing time of the visited Web page. Then we give a new method to measure the similarity of Web sessions using sequence alignment and the similarity of Web page access in detail Experiments have proved that our method is valid and efficient.  相似文献   

18.
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法.分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率.  相似文献   

19.
从Web数据中挖掘频繁访问模式   总被引:7,自引:0,他引:7  
提出了一种新的用户浏览行为模型,通过在Web日志挖掘中引入页面信息量参数,以Web页面文件大小与用户浏览时间的比值作为对页面关心程度的度量,将页面引用划分为导航目的与内容目的两种类型。在此基础上定义并实现了对应的内容事务识别方法。实际数据的挖掘结果证明了模型的适用性。  相似文献   

20.
基于网页分块的Shark-Search算法   总被引:1,自引:0,他引:1  
Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号