共查询到18条相似文献,搜索用时 46 毫秒
1.
基于兴趣相似性的Web用户聚类 总被引:8,自引:0,他引:8
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的. 相似文献
2.
为了提高混合特征数据聚类分辨能力,提出基于改进神经网络的混合特征数据聚类算法。分析混合特征数据的存储结构模型,采用关联特征分布式检测方法进行混合特征数据的融合性聚类,挖掘混合特征数据的模糊相关性特征量,对混合特征数据采用改进神经网络模型进行特征分类,根据混合特征数据的分类属性进行模糊聚类处理,采用统计序列分析方法实现对... 相似文献
3.
骆绍烨 《江南大学学报(自然科学版)》2015,14(1):85-89
作为一种常用的在线文档聚类算法,STC算法聚类结果在用户个性化方面存在不足。改进后的算法结合用户兴趣模型,通过增加基类选择因子和改善基类合并规则来进行改进,实现基于用户兴趣特征的个性聚类效果。实验表明,改进后的算法具有较好的准确性和效率。 相似文献
4.
为了提高推荐算法在对少数类用户进行推荐时的时效性、准确性,提出一种面向少数类用户兴趣演化的推荐算法.该文算法将时间窗口、指数衰减函数和带有时间效应的用户项目交互信息3个因素相结合,描述出不同用户对不同项目类型的兴趣倾向值.通过改进的K-means算法对用户进行分类,并对聚类结果中近邻数量极少的类用户(少数类用户),使用... 相似文献
5.
混合蛙跳算法(SFLA)是一种基于子群——种群进化模式的群智能优化算法,通过自身特有的分组算子实现不同解的合理分布,能够有效跳出局部最优;局部位置更新算子只对最差解进行更新,加快了算法的收敛速度。针对传统算法在解决聚类问题时存在聚类精度低和算法收敛速度较慢等缺点,本文提出了运用混合蛙跳算法来解决聚类问题,通过采用基于图像二维空间像素特征提取的方法构造青蛙个体解,设计青蛙进化的目标函数和青蛙位置更新策略,并通过数字,图形等验证了该算法解决聚类问题的有效性. 相似文献
6.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。 相似文献
7.
8.
《天津理工大学学报》2017,(2):48-52
如何提高大数据环境下推荐系统的推荐效率是一个值得关注的课题.本文提出了一种基于用户社交网络的最短距离聚类算法.该算法在推荐之前预先对用户进行聚类,降低邻域搜索空间,提高推荐效率.本聚类算法将用户分为分簇用户和离群簇用户两大类,推荐时以簇为单位输入.离群簇用户可实现对社交网络的简单扩展.最后通过对真实社交网络的模拟,证明了算法的可行性与有效性. 相似文献
9.
10.
在使用K-Means进行文本聚类的研究中,针对K-Means算法缺点,提出了利用DBSACN算法确定参数K的方法,将基于密度的聚类算法应用于特征选取上,使得K值计算有了一定的确定性,从而提高了聚类质量。这种将多种算法混合运用的方法,为文本聚类算法的设计提供一个新的方向。 相似文献
11.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现. 相似文献
12.
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。 相似文献
13.
基于协作过滤的Web日志数据预处理研究 总被引:2,自引:0,他引:2
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。 相似文献
14.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果. 相似文献
15.
The development of global positioning technology and location-based service have contributed to the development of trajectory big data. Trajectory clustering is one of the most important trajectory analysis tasks and has been extensively studied. Currently, most of the clustering methods operate in a single-processor mode, and large-scale trajectory data processing is a lengthy process, making it difficult to meet the strong timeliness of the trajectory analysis task. To solve the problem, a distributed parallel clustering method based on trajectory density partition is proposed. Firstly, the whole dataset is abstracted in a rectangular region, and the dataset is divided into several partitions with tasks that have almost the same amount by the transformation of the longest dimension of the rectangle, thus constructing the local datasets for distributed parallel clustering. Then the worker servers implement the DBSCAN clustering algorithm for the local partitions respectively, and the manager server merges and integrates the local clustering results. The experimental results show that the algorithm is effective and improves the computational rate of clustering analysis to a certain degree. 相似文献
16.
17.
从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值. 相似文献