首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
将改进的蚁群聚类算法应用于Web使用挖掘中,可对Web事务进行聚类,以便了解Web用户的兴趣以及它们之间的联系,从而为用户提供个性化的服务。同时定义一个Web会话为一个带权值的多维向量,也定义了两个会话间的相似度度量。实验表明在广西大学网站抽取的会话数据集上执行蚁群聚类算法得到的聚类是稳定的。结果显示该算法执行得很好,能找到没有噪音的聚类。  相似文献   

2.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

3.
基于Web日志的匿名网络用户聚类研究   总被引:2,自引:0,他引:2  
该文探讨了从Web日志中提取匿名网络用户会话信息的方法以及会话向量的表述形式,并利用网页的层次性减少会话向量的维数,确定了用户会话之间的相似度的计算公式,最后采用leader层次聚类算法完成匿名网络用户会话聚类。实验结果表明,这种方法是高效可行的,可以较好地解决扩展性和动态聚类等问题。  相似文献   

4.
为解决传统协同过滤算法在产生推荐时实时性较差性问题,提出了一种基于蚁群模糊聚类的协同过滤推荐算法.该算法将分两个步骤产生推荐.离线时,应用蚁群模糊聚类技术,对基本用户进行聚类;在线时,利用已有的用户蚁群聚类寻找目标用户的最近邻居,并产生推荐.实验表明,基于蚁群模糊聚类的协同过滤推荐算法能提高推荐产生的速度,即实时性得到...  相似文献   

5.
文章提出一种新的用户浏览模式的聚类算法,该算法应用马尔可夫链与模糊逻辑理论,通过对Web会话文件的处理,赋予类标记,实现了根据访问模式对用户的分类,以便个性化推荐和指导不同类别的用户进行学习.  相似文献   

6.
为提高用户会话聚类的准确性,充分利用页面路径的相似性,提出了基于兴趣点的会话相似性测量方法IPB(interest-point based).该方法充分利用页面路径包含的网站层次结构所体现的分类信息,将同一目录中的页面定义为一个兴趣点.在计算会话相似性时,首先获取用户会话中的兴趣点,根据页面路径的相似性计算兴趣点的相似性,然后根据兴趣点求出会话之间的相似度.实验结果表明,该方法能够更准确地计算Web会话的相似性.  相似文献   

7.
基于超图聚类的用户行为模式挖掘   总被引:3,自引:1,他引:2  
为解决代理服务器端用户行为日志的高维特征,提出一种基于超图模型的Web会话聚类方法。该方法利用页面归约和隐含在会话中的时间等统计信息描述会话,并在此基础上利用基于关联规则的超图对用户会话进行聚类,可以在较高层次上发现代理服务器端的用户行为模式。实验结果表明,该方法可以在大型的代理日志文件集中挖掘出有意义的用户行为模式,有效揭示用户的行为规律。  相似文献   

8.
本文采用蚁群算法对聚类数目已知的多字符进行聚类识别,在分析了基本蚁群算法的基础上,提出了一种改进的蚁群算法,该算法结合分布式计算、正反馈机制、贪婪式搜索算法等.对每只蚂蚁构造一个可行解,利用信息素矩阵,经过若干次的选代,找寻包含最优解的蚂蚁.通过与K-means和遗传算法比较,最后得出结论,该蚁群算法识别效果好,执行效率高.  相似文献   

9.
深入分析云计算环境下虚拟机资源调度分配的调度结构及与之对应的调度策略和算法后,结合云计算资源分配的最新研究成果和发展趋势,研究出一种基于聚类算法和蚁群算法的虚拟机资源分配算法.该算法基于Map/Reduce框架提出,着眼于如何为众多不同的用户任务分配虚拟机节点,充分考虑云计算环境中物理机的地域差异.在一个物理机区域内寻找分配虚拟机资源时引入蚁群算法,能更好地确保用户任务的按时完成,任务执行时间跨度方面满足服务等级协议(SLA).  相似文献   

10.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

11.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

12.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

13.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

14.
The task of clustering Web sessions is to group Web sessions based on similarity and consists of maximizing the intra-group similarity while minimizing the inter-group similarity. The first and foremost question needed to be considered in clustering Web sessions is how to measure the similarity between Web sessions. However, there are many shortcomings in traditional measurements. This paper introduces a new method for measuring similarities between Web pages that takes into account not only the URL but also the viewing time of the visited Web page. Then we give a new method to measure the similarity of Web sessions using sequence alignment and the similarity of Web page access in detail Experiments have proved that our method is valid and efficient.  相似文献   

15.
基于概念分组的Web搜索结果聚类算法   总被引:2,自引:0,他引:2  
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解.  相似文献   

16.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

17.
平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。  相似文献   

18.
To alleviate the scalability problem caused by the increasing Web using and changing users' interests, this paper presents a novel Web Usage Mining algorithm-Incremental Web Usage Mining algorithm based on Active Ant Colony Clustering. Firstly, an active movement strategy about direction selection and speed, different with the positive strategy employed by other Ant Colony Clustering algorithms, is proposed to construct an Active Ant Colony Clustering algorithm, which avoid the idle and "flying over the plane" moving phenomenon, effectively improve the quality and speed of clustering on large dataset. Then a mechanism of decomposing clusters based on above methods is introduced to form new clusters when users' interests change. Empirical studies on a real Web dataset show the active ant colony clustering algorithm has better performance than the previous algorithms, and the incremental approach based on the proposed mechanism can efficiently implement incremental Web usage mining.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号