首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
基于不完整信息的半监督聚类算法   总被引:1,自引:0,他引:1  
聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析.重点研究半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果.  相似文献   

2.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

3.
针对代理渠道发展的新用户质量良莠不齐,将聚类算法引入新发展用户质量分析中,构建虚开用户模型识别代理商虚开用户.同时,还提出了k-均值聚类的改进算法.该算法结合数据样本分布以及所在区域的密度选取初始聚类中心,用于消除传统k-均值算法对初始聚类中心的敏感性.该算法应用于新发展用户的质量分析上,在虚开用户分析方面取得了良好的效果.  相似文献   

4.
聚类是数据挖掘中最重要的研究内容之一,通常用来对数据做统计和分析。本文研究的重点是半监督聚类算法,即在有一部分用户标注的先验信息的条件下,改进现有的聚类算法,以利用少量的用户标注信息,得到更好的数据聚类效果。  相似文献   

5.
为解决传统协同过滤算法在产生推荐时实时性较差性问题,提出了一种基于蚁群模糊聚类的协同过滤推荐算法.该算法将分两个步骤产生推荐.离线时,应用蚁群模糊聚类技术,对基本用户进行聚类;在线时,利用已有的用户蚁群聚类寻找目标用户的最近邻居,并产生推荐.实验表明,基于蚁群模糊聚类的协同过滤推荐算法能提高推荐产生的速度,即实时性得到...  相似文献   

6.
基于网格带有参考参数的扩展聚类算法   总被引:1,自引:0,他引:1  
作者在前期研究工作中提出了一种基于网格的带有参考参数的聚类算法(GRPC),该算法从用户的角度去看待聚类,最大程度地避免用户设置聚类参数的盲目性.本文对GRPC算法在高维性和可伸缩性两方面进行了扩展,将高维数据空间的聚类工作分解到二维数据空间来进行,并采用随机抽样技术来处理大规模的数据集.实验仿真表明,该算法能在三维及其以上的数据空间有效地聚类较大规模数据集.  相似文献   

7.
为研究如何帮助社交网络中虚拟团队从海量的用户中筛选更多行为相似的用户加入团队,建立了一种基于社交网络的团队成员推荐模型,为虚拟团队推荐一些行为特征相似的用户作为候选团队成员。通过对用户信息和团队信息进行分词处理,得到用户标签向量集和团队标签向量集;将基于遗传算法的聚类算法应用于团队标签向量集,得到团队聚类簇和团队聚类中心;在此基础上,将团队聚类中心作为用户集的初始聚类中心,聚类出行为特征与团队聚类中心相似的用户簇,将这些用户簇作为相应团队聚类簇的候选推荐用户;再应用协同过滤思想,筛选出团队推荐成员列表。实验结果表明,该算法有效地解决了虚拟团队成员推荐问题。  相似文献   

8.
给出了K-means算法和层次聚类算法在具体网站用户细分中准确率的比较,在细分网站用户这一类问题中,K-means算法在聚类准确率和处理速度上具有较大的优势,能够满足网站用户细分准确率的基本要求,其聚类准确率达到95%左右,且K-means算法处理速度比较快;层次聚类算法的处理速度较K-means算法慢,且其聚类准确率在处理大量用户数据时低于92%,这对于处理网站用户数据这类信息并不具备优势.  相似文献   

9.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

10.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

11.
Web日志挖掘及AprioriAll算法的改进   总被引:2,自引:0,他引:2  
阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/O相关性.这不仅使对Web日志数据进行的挖掘活动可以分散地进行,而且使多机连网分布式挖掘成为可能,同时还可以实现对Web日志的增量挖掘和动态挖掘.此外,该改进算法的特殊意义还在于它不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同的用户个体的行为进行独立地挖掘,使挖掘出的结果能够满足对用户个性化使用的需求.  相似文献   

12.
基于Web挖掘的用户个性化服务研究   总被引:1,自引:0,他引:1  
随着WWW的广泛应用及相应的Web技术的出现.使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,解决网络用户的个性化服务问题。论文主要论述了一个更新的频繁路径集的Web挖掘算法在网络用户个性化服务中的应用。  相似文献   

13.
Web智能代理的预取技术和缓存技术   总被引:4,自引:0,他引:4  
针对同一个工人组中成员可能对Web有相似的兴趣点和访问习惯问题,研究了主要包括缓存和预取两个部分的智能代理技术,研究了代理缓存三种替换算法:LRU和LRU的两种变种,仿真试验表明,LRU算法的命中率极差,将LRU的两种变种相结合则是一种较好的方案,通过引入预测算法和门限算法,代理服务器可以预测最近将要访问到的页面,并存在客户际请求提出之前有选择地下载,因为单个客户访问某个页面的历史次数往往不够多,将预测算算放在代理服务器上比放在客户端的预测概率更准确,通过在代理服务器上实现缓存和预取技术,可减少用户访问Web的响应时间,还可减少实际访问Web服务器的总次数,并提出了一个为发展中国家中国家用户缩减Web访问代价的有效方法。  相似文献   

14.
将Web使用挖掘应用到网络教育领域,分析了其挖掘过程,包括数据采集、数据预处理、模式发现和模式分析;通过建立网络教育资源导航模型,并利用蚁群算法对Web日志数据中使用者的浏览行为进行挖掘;提出一个新的导航路径挖掘算法,可以发现有价值的用户浏览模式,指导用户对教育资源作进一步的搜索,还可以将训练好的网络图用于用户的个性化定制服务。  相似文献   

15.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

16.
传统的推荐算法一定程度上为学习者提供了自适应的学习服务,但忽略了用户的学习兴趣偏好,难以提供学习者满意的推荐服务.为了提高学习推荐的效率,对用户的偏好进行进算,根据兴趣偏好对基本用户进行聚类,然后根据用户之间的兴趣相似性初步预测目标用户的兴趣度,进而给用户推荐兴趣度较高的学习服务.实验结果表明,该方法可显著地提高推荐质量.  相似文献   

17.
We propose an algorithm for learning hierarchical user interest models according to the Web pages users have browsed. In this algorithm, the interests of a user are represented into a tree which is called a user interest tree, the content and the structure of which can change simultaneously to adapt to the changes in a user's interests. This expression represents a user's specific and general interests as a continuurn. In some sense, specific interests correspond to shortterm interests, while general interests correspond to longterm interests. So this representation more really reflects the users' interests. The algorithm can automatically model a us er's multiple interest domains, dynamically generate the in terest models and prune a user interest tree when the number of the nodes in it exceeds given value. Finally, we show the experiment results in a Chinese Web Site.  相似文献   

18.
Web日志中挖掘用户浏览模式的研究   总被引:24,自引:0,他引:24  
研究了Web日志挖掘的机理,提出了使用频繁遍历径作为用户浏览模式,并在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径的类Apriori算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径。  相似文献   

19.
自适应Web站点站能够根据用户需要快速灵活地改变自身,动态适应不断变化的用户需求和应用环境.通过Web日志文件的挖掘,找出用户的访问模式,及该模式中的访问类型,而且分析当前访问页面的频繁度后,形成经过内容裁剪的个性化页面来压缩Web页面内容.在此基础上,设计了一个自适应站点模型,改善Web站点的结构和组织形式以使站点达到更好的效果.  相似文献   

20.
基于蚁群算法的用户导航模式挖掘的研究   总被引:1,自引:0,他引:1  
Web使用挖掘是将数据挖掘技术应用于Web日志数据,从而发现用户行为模式的过程;在电子商务的发展进程中,Web使用挖掘的重要性与日俱增;用户导航模式的挖掘是Web使用挖掘的一个重要研究领域,是优化Web站点框架设计的根本方法;该文首先介绍了用户导航模式挖掘的现状,然后探讨了蚁群算法用于用户导航模式挖掘的可行性,最后对应用的步骤提出了构想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号