首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
一种基于会话聚类算法的Web使用挖掘方法   总被引:1,自引:0,他引:1  
Web使用挖掘作为数据挖掘的一个重要任务,有助于了解用户群体的特征,从而为其提供个性化服务.提出了一种基于用户会话聚类的Wei使用挖掘算法.首先,对Web日志预处理采用基于时间窗的用户会话识别方法,提出了一种基于三元组的用户会话表示方法,并在此基础上给出了基于网页语义相似性的会话处理方法,该方法能够在保持用户兴趣不变的情况下有效降低会话维度;其次,提出了一种基于时间及频次的用户会话相似性度量方法;最后,设计了一种两阶段PS-KM会话聚类算法,先用PSO方法进行全局搜索再转入基于K-means方法的局部聚类过程.仿真表明了算法的有效性.  相似文献   

2.
提出一种模糊的粗糙近似法用于对web日志中的用户浏览模式进行聚类.在聚类过程中,一个网页是否被访问反映了用户的浏览兴趣,一个网页上的浏览时间反映了用户浏览兴趣的程度,它被刻画成模糊语言变量以忽略时间值之间的细小差别.每个用户浏览模式被表示成等长的模糊向量的形式以表示该用户访问过的网页及网页上的浏览时间.最后使用粗糙近似的方法对这些表示用户浏览模式的模糊向量进行聚类.这种方法可以把具有相似浏览行为的用户聚成一类.  相似文献   

3.
Web日志挖掘技术进展   总被引:14,自引:0,他引:14  
用户访问Internet时,服务器、客户机日志会记录下大量的用户访问信息。通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。概述了Web挖掘的概念、分类及其主要应用领域,详细介绍了Web日志挖掘的主要方法和用户访问模式挖掘算法及国内外最新研究进展。最后提出了Web用户访问信息挖掘研究的发展方向和趋势。  相似文献   

4.
基于模糊粗糙k-均值的用户访问模式的聚类   总被引:1,自引:2,他引:1  
Web用户访问过的网页以及在该网页上的浏览时间体现了用户的访问兴趣.为了更好的衡量任意两个用户访问模式之间的相似/相异度,每个用户访问模式都被转换成具有相等长度的模糊向量,其中每个元素要么是0要么是模糊语言变量,它体现了用户是否访问过该网页及在该网页上的浏览时间.由于类的边界可能是模糊的,因而使用粗糙k-均值法对这些代表用户浏览特征的模糊向量进行聚类.最后使用Davies-Bouldin指标来衡量聚类的效果.  相似文献   

5.
为了提高用户相似度计算的精度和知识推送的准确度,提出了一种基于热门物品惩罚和用户兴趣变化的协同过滤推送算法。该算法首先对知识项进行聚类;其次在每一类中引入用户兴趣度函数来对类内未评分知识项进行评分值预测;然后在每个类的用户相似度计算中引入热门物品权重系数,用以惩罚热门物品对用户相似度的影响;最后在推送当中引入用户兴趣随时间变化的权重系数。实验还采用MovieLens数据集进行了测试,结果表明,改进后的算法比传统的协同过滤算法在推送准确度上有明显提高。  相似文献   

6.
提出一种基于区域特征的分布式Web用户兴趣迁移模式挖掘模型DWICP,以及基于该模型的具有区域特征的用户识别方法和局部浏览兴趣迁移模式更新算法/全局浏览兴趣迁移模式更新算法,用于发现具有区域特征的用户浏览兴趣迁移模式.实验表明,该方法能够较好地解决分布式环境下Web访问行为模式研究中的区域分析需求,同时提高了用户浏览兴趣表示的准确性.  相似文献   

7.
为改善大规模Web3D场景的加载效率,提出一种基于DR(Dead reckoning)预测的大规模Web3D场景预加载机制,结合DR航迹预测的算法和基于历史路径的兴趣路径聚类算法,将航迹领域中路径预测和交通领域中路径聚类应用到虚拟场景加载领域中,提出一种Web3D场景的预加载机制。实验与研究表明,通过该算法实现的预加载机制可以显著地提高数据的传输效率,优化大规模Web3D场景的加载速度,有效地提高用户在Web3D场景中的漫游体验,为优化大规模Web3D场景的加载机制提出了新思路。  相似文献   

8.
用户在一定区域内的长期移动行为与某些物理位置相关,如家和办公室等.为了从用户的日常移动轨迹中找出这些位置与轨迹的关系,本文提出一种新的基于移动位置扰动的端点划分与聚类方法.该方法首先将GPS轨迹划分为成组的线段集,然后运用聚类方法将地理上相似的端点进行聚类以检测用户的个性化兴趣点,最后利用原始轨迹来映射个性化兴趣点之间连接关系,生成用户在区域内的移动路径网络.理论与实验结果表明,本文提出的方法可有效地从大量GPS轨迹中发现用户的频繁路径及个性化兴趣点,从而能够为其提供更好的个性化地理信息服务.  相似文献   

9.
一种基于互信息的词聚类算法   总被引:1,自引:0,他引:1  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

10.
大量移动手机应用(Apps)存在重叠性功能特征,大量用户评论和多个标签,给市场机会发现、开发应用集成和应用选择带来困扰.本文提出基于文本挖掘和相似度网络融合的移动信息服务模式挖掘框架:基于功能描述文本、用户评论、分类标签分别构建个体相似度网络;将从不同信息视角得到的相似度网络进行非线性融合;用聚类验证融合网络有效性,将其用于发现不同移动信息服务模式.最后实验抓取2451个Apps,多视角特征融合方法克服数据水平差异和噪音,集成互补信息.融合结果用于聚类,在归一化互信息和准确率指标上都有显著提升,准确发现地图导航、火车汽车票、打车专车、公交查询等主流移动信息模式.研究成果为发掘市场机会和竞争者提供事实证据.  相似文献   

11.
协同过滤是目前个性化推荐系统中广泛使用和最成功的推荐算法,但在用户评分极端稀疏的情况下将面临冷启动问题, 具体包括新用户问题和新项目问题.针对新用户问题,提出了一种基于n序访问解析逻辑的冷启动消除方法, 首先通过Web日志来获取用户访问项序,进而定义了n序访问解析逻辑将其分解为用户访问子序集; 在此基础上设计了用户访问项序的相似性计算方法来搜寻新用户的最近邻集合, 进而提出了改进最频繁项提取算法IMIEA (improved most-frequent items extracting algorithm)来生成面向新用户的top-N推荐. 实验结果表明,本文提出的新方法能够有效实现面向新用户的个性化推荐,消除了协同过滤冷启动中的新用户问题.  相似文献   

12.
陈晓红  秦杨 《系统工程》2004,22(7):80-83
传统特征选择算法在多维Web数据中由于其数据对象自身固有的稀缺性而常常失效。在典型多维Web数据挖掘应用中,不同数据对象集合对于不同雏度集合而言可能聚类会更好,且在每个簇的具体子空间中维度数将可能非常大。事实上,为所有簇查找出单个的小雏度集合是不可能的。本文应用映射簇的概念来明确簇与雏度的关系,将聚类问题转化为映射簇问题,从而简化计算提高挖掘效率。最后给出相应的算法。  相似文献   

13.
随着Web 2.0技术的发展和推广,社会化标注系统为用户提供了有效表达自我和抒发感情的机会。针对社会化标签的特征,本文提出了一种考虑用户兴趣变化和用户标注信息的协同过滤推荐方法。首先,基于用户的历史记录信息构建了用户原始数据模型;然后将基于艾宾浩斯遗忘曲线的遗忘函数引入原始数据模型构建了用户兴趣模型,其中,利用融合时间权重的文本挖掘技术TF-IDF建立了基于项目类别标签的用户兴趣模型,综合标注标签加权频数和用户评分构建了基于标注标签的用户兴趣模型,融合时间权重和项目评分构建了基于评分的用户兴趣模型;进一步,基于用户兴趣模型并利用余弦相似性以及改进的Pcarson相关系数可计算融合用户评分和标签的用户兴趣相似度,根据用户兴趣相似度可为目标用户构建近邻集合从而生成推荐。实验结果表明,本文所提方法可以较好的考虑到用户的兴趣变化以及用户对标注标签的偏好,并通过对比实验证实该方法比传统的协同过滤方法推荐质量更高。  相似文献   

14.
改进的基于矢量空间的群体聚类算法   总被引:1,自引:0,他引:1  
针对群体聚类算法中,一般以群体成员偏好矢量的相似度作为相聚依据,但这类方法通常不能保证群体聚类后聚集的一致性的问题。提出了成员与成员集的相似度概念,给出了基于聚集一致性的成员与聚集相聚的条件,描述了一个改进的群体聚类启发式算法。同时,还定义了群体及聚集一致性的偏差指标和相对偏差指标,用以评估聚类结果。实例测试表明,该算法有较好的聚类性能和较低的一致性偏差指标。  相似文献   

15.
基于遗传优化的采样模糊C均值聚类算法   总被引:14,自引:0,他引:14  
在数据挖掘领域,模糊C均值聚类法(FCM)在处理小量低维的数据挖掘时是有效的,但是面向数据库的数据挖掘经常要处理大量、高维的数据.在这种情况下,FCM算法在时间性能上难以令人满意.本文基于采样技术对FCM算法进行改进,以提高算法的时间性能,并利用遗传算法对聚类结果进行优化以保证聚类的质量,给出了一种新的基于遗传优化的采样模糊C均值聚类算法SFGO(SamplingFCMwithGeneticOptimization).仿真实验证明SFGO算法在大规模数据库的聚类挖掘中,在时间性能和聚类质量上都能获得较满意的结果.  相似文献   

16.
协同过滤推荐算法通常是基于兴趣相似的用户行为来实现个性化推荐, 其核心义用户之间的兴趣相似度. 本文在传统的协同过滤推荐算法基础上, 考虑在线评论对用似度识别的影响. 在混合商品推荐中, 粗粒度识别评论情感极性; 而在同类商品推荐中, 细粒别每个商品特征的情感极性. 如果用户对产品的某个特征评价次数大于平均次数, 表明用户对征较关注; 如果对产品的某个特征评价低于平均评价, 表明用户对该特征较挑剔. 进而根据用户评论来建立用户偏好模型, 用户在评论中反映出来的相似度越高, 表明用户之间的偏好越. 实验表明, 同传统的协同过滤算法相比, 基于在线评论情感分析的用户协同过滤算法在率和召回率指标上有显著提升.  相似文献   

17.
基于PCA-SOM的混合协同过滤模型   总被引:2,自引:2,他引:0  
针对推荐系统中协同过滤技术面临的数据稀疏性和推荐实时性难以保证的问题,提出一种基于主成分分析(Principle component analysis)和SOM(Self-organizing map)聚类的混合协同过滤模型.首先对原始评分数据进行全局降维,并在转换后的主成分空间上进行用户聚类,缩小了目标用户的最近邻搜索空间,减少了在线计算时间复杂度,最后对真实的电子政务门户网站Log日志数据进行了几种常用的推荐算法的比较,实验结果证明新的推荐模型具有较好的预测精度.  相似文献   

18.
传统聚类算法在解决含有不确定性的聚类问题时具有很大的局限性,为了更好地解决聚类问题中的不确定性,论文基于区间二型模糊集理论,提出了基于二型模糊等价关系的聚类分析算法.论文首先将语言变量信息完整地转化为区间二型模糊集,接着把语言变量和区间二型模糊集的优势相结合,通过区间二型模糊集的Jaccard相似度,提出了基于区间二型模糊语言变量的模糊等价关系聚类分析新方法,并设计了具体的算法流程.新聚类算法相对于传统的模糊等价关系的聚类算法,具有更好地处理不确定性问题的能力,避免了聚类计算过程中的信息丢失.同时新聚类算法可以灵活给出随聚类相似性参数变化的动态聚类结果.论文最后以电商平台的手机品牌聚类为例,验证了新算法的可行性和合理性.  相似文献   

19.
基于特定信息需求的网站用户游历其兴趣文档集合的便利性,建立了一种站点结构优化的数学模型,通过页组支持度与页组拓扑平均距离量化评估与挖掘站点中访问效率较低的内容文档集合为结构优化的兴趣页组,据此提出能综合评价站点访问效率的指标--WEB拓扑兴趣度,并通过分析新增超链接的影响因素设计了相应的站点结构优化方法,优化算法中采用遗传算法寻找最优组合的新增超链接组.实验结果表明:优化后的站点结构能有效改善信息搜索与获取行为的效率低下问题.  相似文献   

20.
一种新的层次结构网站用户兴趣模式变化识别算法   总被引:3,自引:2,他引:1  
提出了一种Web用户兴趣变化识别的算法,面向层次结构的信息类网站,可以达到客户自适应的目的.该算法由长、短期两个兴趣模型构成,分别基于指数衰减理论和贝叶斯后验概率理论.基于一个Internet上真实网站的实验结果表明,本文提出的算法可以迅速识别出用户的兴趣变化,并且广泛适用于新闻、虚拟社区等层次结构类网站的网页内容推荐,满足用户在信息浏览时的个性化需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号