首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 797 毫秒
1.
Web日志挖掘可以发现访问者兴趣和需求, 提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法. 首先以Web日志为基础构建相关矩阵, 使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度, 最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类. 实证分析结果表明该算法能较好地解释用户的实际访问兴趣, 从而为网站提供相应的运营建议.  相似文献   

2.
为改善大规模Web3D场景的加载效率,提出一种基于DR(Dead reckoning)预测的大规模Web3D场景预加载机制,结合DR航迹预测的算法和基于历史路径的兴趣路径聚类算法,将航迹领域中路径预测和交通领域中路径聚类应用到虚拟场景加载领域中,提出一种Web3D场景的预加载机制。实验与研究表明,通过该算法实现的预加载机制可以显著地提高数据的传输效率,优化大规模Web3D场景的加载速度,有效地提高用户在Web3D场景中的漫游体验,为优化大规模Web3D场景的加载机制提出了新思路。  相似文献   

3.
提出一种基于区域特征的分布式Web用户兴趣迁移模式挖掘模型DWICP,以及基于该模型的具有区域特征的用户识别方法和局部浏览兴趣迁移模式更新算法/全局浏览兴趣迁移模式更新算法,用于发现具有区域特征的用户浏览兴趣迁移模式.实验表明,该方法能够较好地解决分布式环境下Web访问行为模式研究中的区域分析需求,同时提高了用户浏览兴趣表示的准确性.  相似文献   

4.
基于模糊粗糙k-均值的用户访问模式的聚类   总被引:1,自引:2,他引:1  
Web用户访问过的网页以及在该网页上的浏览时间体现了用户的访问兴趣.为了更好的衡量任意两个用户访问模式之间的相似/相异度,每个用户访问模式都被转换成具有相等长度的模糊向量,其中每个元素要么是0要么是模糊语言变量,它体现了用户是否访问过该网页及在该网页上的浏览时间.由于类的边界可能是模糊的,因而使用粗糙k-均值法对这些代表用户浏览特征的模糊向量进行聚类.最后使用Davies-Bouldin指标来衡量聚类的效果.  相似文献   

5.
Web日志挖掘技术进展   总被引:14,自引:0,他引:14  
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。  相似文献   

6.
一种新的层次结构网站用户兴趣模式变化识别算法   总被引:3,自引:2,他引:1  
提出了一种Web用户兴趣变化识别的算法,面向层次结构的信息类网站,可以达到客户自适应的目的.该算法由长、短期两个兴趣模型构成,分别基于指数衰减理论和贝叶斯后验概率理论.基于一个Internet上真实网站的实验结果表明,本文提出的算法可以迅速识别出用户的兴趣变化,并且广泛适用于新闻、虚拟社区等层次结构类网站的网页内容推荐,满足用户在信息浏览时的个性化需求.  相似文献   

7.
时间序列数据量远远大于普通数据库的特点,导致一些通用的数据挖掘工具直接应用于时间序列效果很不理想。为此提出了一种时间序列分段线性化表示算法,这种表示方法将大大提高相似性测量的计算速度。在分段线性化表示的基础上提出了一种相似性计算方法,该方法对于时间序列的多种变形都不敏感。将k-平均(k-mean)聚类算法应用于分段线性化表示的时间序列,聚类结果表明算法非常有效。  相似文献   

8.
一种基于网格密度与空间划分树的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.文章提出了一种新的基于网格密度和空间划分树的CGDSFF(Clustering based on Grid - Density andSpatial Partition Tree)聚类算法.其创新点在于,将数据空间划分成多个体积相等的单元格,然后基于单元格定义了密度、簇等概念,对单元格建立了一种基于空间划分的空间索引结构(空间划分树)来对数据进行聚类.CGDSPT算法保持了基于密度的聚类算法的上述优点,而且CGDSFF算法具有线性的时间复杂性,因此CGDSPT算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CGDSPT算法的优点.  相似文献   

9.
一种基于用户聚类的协同过滤推荐算法   总被引:3,自引:0,他引:3  
为解决传统协同过滤算法在生成推荐时的速度瓶颈问题,提出了一种基于用户聚类的协同过滤推荐算法。该算法将推荐过程分成了离线和在线两个部分。离线时,算法对基本用户数据进行预处理,并对基本用户聚类;在线时,算法利用已有的用户聚类寻找目标用户最近邻居,并产生推荐。实验表明,基于用户聚类的协同过滤推荐算法不仅加快了推荐生成速度,而且提高了推荐质量。  相似文献   

10.
陈晓红  秦杨 《系统工程》2004,22(7):80-83
传统特征选择算法在多维Web数据中由于其数据对象自身固有的稀缺性而常常失效。在典型多维Web数据挖掘应用中,不同数据对象集合对于不同雏度集合而言可能聚类会更好,且在每个簇的具体子空间中维度数将可能非常大。事实上,为所有簇查找出单个的小雏度集合是不可能的。本文应用映射簇的概念来明确簇与雏度的关系,将聚类问题转化为映射簇问题,从而简化计算提高挖掘效率。最后给出相应的算法。  相似文献   

11.
基于网络浏览行为,研究小众领域的用户画像建模方法.本文提出构造领域文本伪本体的方法,并从用户的网络浏览行为中挖掘用户兴趣,生成了基于领域兴趣的用户画像,随后将构建的用户画像应用于个性化推荐领域,解决了小众领域因用户量少、信息不足而难以精准刻画用户画像的问题.该方法在以下三方面显著不同于其他相关研究工作:1)基于领域文本快速构建领域伪本体,构建基于伪本体的用户画像建模方法;2)采用词向量将网页映射到伪本体,构建画像生成算法;3)基于领域概念间相似度构建画像优化算法.最后,本文使用了交响乐团的售票数据及用户的网络浏览数据,采用多个指标进行实证分析,验证了本文提出的画像建模方法的有效性与合理性.  相似文献   

12.
提出一种模糊的粗糙近似法用于对web日志中的用户浏览模式进行聚类.在聚类过程中,一个网页是否被访问反映了用户的浏览兴趣,一个网页上的浏览时间反映了用户浏览兴趣的程度,它被刻画成模糊语言变量以忽略时间值之间的细小差别.每个用户浏览模式被表示成等长的模糊向量的形式以表示该用户访问过的网页及网页上的浏览时间.最后使用粗糙近似的方法对这些表示用户浏览模式的模糊向量进行聚类.这种方法可以把具有相似浏览行为的用户聚成一类.  相似文献   

13.
协同过滤是目前个性化推荐系统中广泛使用和最成功的推荐算法,但在用户评分极端稀疏的情况下将面临冷启动问题, 具体包括新用户问题和新项目问题.针对新用户问题,提出了一种基于n序访问解析逻辑的冷启动消除方法, 首先通过Web日志来获取用户访问项序,进而定义了n序访问解析逻辑将其分解为用户访问子序集; 在此基础上设计了用户访问项序的相似性计算方法来搜寻新用户的最近邻集合, 进而提出了改进最频繁项提取算法IMIEA (improved most-frequent items extracting algorithm)来生成面向新用户的top-N推荐. 实验结果表明,本文提出的新方法能够有效实现面向新用户的个性化推荐,消除了协同过滤冷启动中的新用户问题.  相似文献   

14.
15.
With an aim to the fact that the K-means clustering algorithm usually ends in local optimization and is hard to harvest global optimization, a new web clustering method is presented based on the chaotic social evolutionary programming (CSEP) algorithm. This method brings up the manner of that a cognitive agent inherits a paradigm in clustering to enable the cognitive agent to acquire a chaotic mutation operator in the betrayal. As proven in the experiment, this method can not only effectively increase web clustering efficiency, but it can also practically improve the precision of web clustering.  相似文献   

16.
一种新的混合聚类算法   总被引:3,自引:2,他引:3  
聚类是数据挖掘的主要技术之一,是一种无导师监督的模式识别方式。聚类分析就是按照数据间的相似程度,依据特定的准则将数据划分成不同子类。K-平均算法是经典的聚类算法。蚂蚁聚类算法是近来涌现的新的聚类算法,它通过模拟蚁群的智能行为进行聚类分析,已经在数据挖掘中得到应用。通过分析蚂蚁聚类算法和K-平均算法两种不同聚类算法的基本思想,将两种算法结合得到混合聚类算法,仿真实验证明混合聚类算法的算法性能优于蚂蚁算法和K-平均算法。  相似文献   

17.
基于网络日志的数据挖掘预处理改进方法   总被引:1,自引:0,他引:1  
对网络日志数据挖掘预处理技术进行研究,针对Frame页面过滤方法与超时阈值设定进行分析,提出了应用ID3算法改进Frame页面过滤过程中丢失SubFrame页面信息且需要进行站点提升步骤。在超时阈值的设定方面采用动态修正方法,提高预处理技术对长时间会话的识别能力的改进方法。通过实验验证,该方法有效地减少了预处理过程中的信息丢失,同时提高了挖掘结果的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号