首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 875 毫秒
1.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

2.
采用路径划分聚类算法,对Web用户访问路径进行划分,然后根据其相似度进行聚类,依据分类系数和平均模糊熵来判定簇个数的最优解,得到较好的聚类效果,为最终挖掘出用户的访问模式奠定了良好的基础.实验发现簇中心偏移次数明显减少,中心长度有所提高,证明算法具有较好的效率.  相似文献   

3.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

4.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

5.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

6.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

7.
用户对Web站点的访问代表了用户对Web站点上页面的访问兴趣,这种兴趣程度可以通过用户对Web站点上页面的浏览顺序及页面上的浏览时间表现出来.通过对Web用户访问路径的分析,提出一种基于浏览路径及浏览时间的相似度的度量方法.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader聚类算法Web用户的有效性.  相似文献   

8.
本文给出了一种Web用户和页面的模糊聚类算法.在该算法中,通过Web日志中的数据,根据用户对Web页面的浏览情况分别建立Web用户和页面的模糊集,在此基础上用最大-最小法的模糊相似性度量构造模糊相似矩阵,并由此构造模糊动态聚类算法.  相似文献   

9.
基于网格带有参考参数的扩展聚类算法   总被引:1,自引:0,他引:1  
作者在前期研究工作中提出了一种基于网格的带有参考参数的聚类算法(GRPC),该算法从用户的角度去看待聚类,最大程度地避免用户设置聚类参数的盲目性.本文对GRPC算法在高维性和可伸缩性两方面进行了扩展,将高维数据空间的聚类工作分解到二维数据空间来进行,并采用随机抽样技术来处理大规模的数据集.实验仿真表明,该算法能在三维及其以上的数据空间有效地聚类较大规模数据集.  相似文献   

10.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

11.
根据用户行为模式自动生成动态链接的方法   总被引:2,自引:0,他引:2  
分析了面向用户行为来进行网页动态链的思想方法.提出了处理用户访问网站的日志数据方法,并提出聚类用户的算法思想与步骤,最后分析了每组用户动态生成每组喜欢的链接思想与算法.主要介绍如何预处理用户日志访问数据及对用户聚类.  相似文献   

12.
基于用户聚类分析的网站导航结构智能优化研究与实现   总被引:3,自引:0,他引:3  
为了提高用户的兴趣空间,对网站导航结构优化进行了分析,提出了对Web日志进行数据预处理算法,同时提出了将用户每次访问的session数据合并为反映用户访问兴趣的数据方法,再对合并后的数据采用BIRCH算法进行聚类分析,最后根据用户聚类分析的结果提出网站导航结构智能优化的方法,给出了一个根据用户聚类集合动态调整导航的结构模型。  相似文献   

13.
基于用户聚类分析的网站导航结构智能优化研究与实现   总被引:2,自引:0,他引:2  
为了提高用户的兴趣空间,对网站导航结构优化进行了分析,提出了对Web日志进行数据预处理算法,同时提出了将用户每次访问的session数据合并为反映用户访问兴趣的数据方法,再对合并后的数据采用BIRCH算法进行聚类分析,最后根据用户聚类分析的结果提出网站导航结构智能优化的方法,给出了一个根据用户聚类集合动态调整导航的结构模型。  相似文献   

14.
聚类分析算法作为一种主要的Web使用挖掘技术,在个性化推荐系统中得到了广泛应用,然而面对Web动态性所引起的网页的更新以及用户行为方式的改变,已有的聚类算法并不能很好地解决这一问题。针对这一问题,本文以一种无向图的形式表示用户对网站的访问,提出一种可实时反映网站及用户行为变化情况的增量式页面聚类算法,并在页面聚类的基础上提出相应的推荐决策算法动态生成页面推荐。  相似文献   

15.
介绍了一种新颖的Web存取模式的聚类算法,该算法是一种结合粗糙理论和模糊理论的改进Leader算法,既体现了粗糙理论和模糊理论在处理含有不确定信息问题上的优势,同时使用了Leader算法进行聚类以提高算法的时间复杂度,从而在Web存取模式的聚类中的聚类的时间花费是令人接受的而且聚类结果是相对满意的。通过实例分析及实验结果,该算法是行之有效的。  相似文献   

16.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

17.
随着通信用户数量的逐渐增加,当前多维信任数据协同推荐算法无法有效满足用户对资源多样性、准确性和发掘能力的要求。为此,提出一种新的定向信息推荐下多维信任数据协同推荐算法。通过矢量空间模型对用户兴趣进行描述,将具有代表性的用户看作该类用户的聚类中心,建立用户对资源的偏好矩阵,求出依据综合信任值的用户相似度;重复选择聚类中心,直至符合既定阈值。获取用户聚类结果后,选择待推荐用户所处聚类中和该用户相似的若干用户,依据上述近邻对目标资源的评分值实现目标用户对目标项目的预测。给出定向信息推荐下多维信任数据协同推荐算法的实现过程,输出Top-N多维信任数据推荐集合。实验结果表明,所提算法预测精度和资源多样性高,发掘能力强,推荐效果好。  相似文献   

18.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号