首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高用户会话聚类的准确性,充分利用页面路径的相似性,提出了基于兴趣点的会话相似性测量方法IPB(interest-point based).该方法充分利用页面路径包含的网站层次结构所体现的分类信息,将同一目录中的页面定义为一个兴趣点.在计算会话相似性时,首先获取用户会话中的兴趣点,根据页面路径的相似性计算兴趣点的相似性,然后根据兴趣点求出会话之间的相似度.实验结果表明,该方法能够更准确地计算Web会话的相似性.  相似文献   

2.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

3.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

4.
本文给出了一种Web用户和页面的模糊聚类算法.在该算法中,通过Web日志中的数据,根据用户对Web页面的浏览情况分别建立Web用户和页面的模糊集,在此基础上用最大-最小法的模糊相似性度量构造模糊相似矩阵,并由此构造模糊动态聚类算法.  相似文献   

5.
A new method for Web users fuzzy clustering based on analysis of user interest characteristic is proposed in this article. The method first defines page fuzzy categories according to the links on the index page of the site. then computes fuzzy degree of cross page through aggregating on data of Web tog. After that, by using fuzzy comprehensive evaluation method, the method constructs user interest vectors according to page viewing times and frequency of hits. and derives the fuzzy similarity matrix from the interest vectors for the Web users. Finally. it gets the clustering result through the fuzzy clustering method. The experimental results show the effectiveness of the method.  相似文献   

6.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

7.
了解用户的行为与特征对网站的设计与维护非常重要,分析网站日志可有效获取Web的访问信息.提出一种利用对网站日志文件的分析实现Web用户分类的新算法.首先对日志文件进行数据筛选及事务识别,构建出一个链接网络图;然后利用页面之间的链接关系定义评估页面之间相似性的新指标,合并相似的页面,形成一个压缩链接图;使用FDOD对链接图中的链接路径进行分类.实验表明,该分类算法具有易于使用、响应迅速以及准确性高等优点。  相似文献   

8.
研究并提出了基于Hyperlink聚类的分类算法,它不需要分析Web文档内容,只根据Web图来聚类,算法性能比传统文本分类方法有很大提高,大大增强了网页分类的能力和效率,适合于海量网页分类,实验表明基于Hyperlink聚类的分类算法,应用于Web文档信息分类,比传统的文本分类方法更加有效。  相似文献   

9.
In this paper, an improved algorithm, named STC-I. is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page.  相似文献   

10.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

11.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

12.
基于URL语义分析的Web用户会话识别方法   总被引:1,自引:0,他引:1  
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值...  相似文献   

13.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

14.
基于超图聚类的用户行为模式挖掘   总被引:3,自引:1,他引:2  
为解决代理服务器端用户行为日志的高维特征,提出一种基于超图模型的Web会话聚类方法。该方法利用页面归约和隐含在会话中的时间等统计信息描述会话,并在此基础上利用基于关联规则的超图对用户会话进行聚类,可以在较高层次上发现代理服务器端的用户行为模式。实验结果表明,该方法可以在大型的代理日志文件集中挖掘出有意义的用户行为模式,有效揭示用户的行为规律。  相似文献   

15.
从Web数据中挖掘频繁访问模式   总被引:7,自引:0,他引:7  
提出了一种新的用户浏览行为模型,通过在Web日志挖掘中引入页面信息量参数,以Web页面文件大小与用户浏览时间的比值作为对页面关心程度的度量,将页面引用划分为导航目的与内容目的两种类型。在此基础上定义并实现了对应的内容事务识别方法。实际数据的挖掘结果证明了模型的适用性。  相似文献   

16.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

17.
A Web page typically contains many information blocks. Apart from the main content blocks, it usually has such blocks as navigation panels, copyright and privacy notices, and advertisements. We call these blocks the noisy blocks. The noises in Web pages can seriously harm Web data mining. To the question of eliminating these noises, we introduce a new tree structure, called Style Tree, and study an algorithm how to construct a site style tree. The Style Tree Model is employed to detect and eliminate noises in any Web pages of the site. An information based measure to determine which element node is noisy is also constructed. In addition, the applications of this method are discussed in detail. Experimental results show that our noises elimination technique is able to improve the mining results significantly.  相似文献   

18.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

19.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

20.
Web日志预处理中会话识别的优化   总被引:3,自引:0,他引:3  
针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号