首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对大数据时代下Slope One算法推荐效率不高的问题,提出结合聚类和动态K近邻的双极Slope One推荐算法.首先,结合Canopy和K-medoids的聚类算法把相似的用户汇聚到一起.然后,在所属聚类中,根据用户之间相似度的具体情况动态地寻找最近邻,并用Slope One-BI算法推荐预测.最后,在Spark平台上实现并行化.在电影数据集上的实验结果表明:基于Spark平台的优化算法与其他协同过滤算法相比,推荐精度具有明显优势.  相似文献   

2.
为实现大数据环境下高效、精准的商品推荐,将协同过滤思想与信息检索理论有机融合,提出基于学习排序(LTR)的并行协同过滤推荐算法.首先利用相似物品-物品网络图结构共享参数的方法减少参数,通过Pairwise方法构造目标函数,并利用梯度上升法得到参数.还提出了通过使用层次聚类的方法对差异性较大的相似图进行分裂,以保证推荐的准确度.最后给出大数据平台Spark下该推荐算法的并行化实现方案.在真实数据集Netflix上的实验结果表明:提出的算法不仅在召回率和准确率上有所提高,而且计算效率高效,表明该方法可以应用于大数据场景中的推荐服务.  相似文献   

3.
针对交替最小二乘法(ALS)在处理大数据集时所面临的处理速度和计算资源问题,提出了基于相似用户索引的分布式矩阵分解推荐算法。首先算法基于用户的评分行为找到用户之间的最近邻,然后使用Spark平台运行提出的算法,并产生推荐。在GroupLens网站上提供的MovieLens数据集上进行仿真实验,实验结果表明,提出的算法能够有效解决ALS对于大数据集运行效率低及在云环境中可扩展性较差的问题。  相似文献   

4.
个性化推荐是根据用户的喜好向用户推荐个性化的产品、信息或服务等,在大数据时代能有效地解决信息过载的问题。提出基于改进BP神经网络的个性化推荐算法,研究了如何建立混合推荐模型,采用BP神经网络训练提高算法中用户相似度计算的准确性。在真实数据集上的实验结果表明,该算法能有效减小用户相识度计算偏差,提高用户个性化推荐的推荐质量。  相似文献   

5.
协同过滤(collaborative filtering,CF)是推荐系统中最常用和最成功的推荐技术之一.现实中的数据往往比较稀疏,用户之间缺少共同评定项目,使一些传统的相似性度量无法进行计算;此外,传统的协同过滤算法忽视了用户偏好问题,这样会造成推荐精度的下降.针对这些问题,从用户全局项目和地方评级信息分析影响用户兴趣偏好的因素,通过计算用户评级信息在全局的概率分布和使用海明贴近度计算用户的兴趣偏好度,利用Jeffries-Matusita距离得出关于用户偏好的相似度算法,将相似度算法与加权的Jaccard相似度算法有效结合,提出了一种在稀疏数据下基于用户偏好的协同过滤算法模型.实验结果表明,提出的模型性能优于传统协同过滤算法,并且在更为稀疏的数据集上也有很高的准确率.  相似文献   

6.
协同过滤是推荐系统中应用最成功的技术之一,现有基于项目的协同过滤算法在计算项目相似度时过度依赖用户对项目的评分数据,没有考虑项目间内在的关联性,导致推荐质量不高.为了全面客观地评估项目相似度,提出了一种基于频繁项集挖掘的推荐算法(BFIM).该算法提出将频繁项集作用于相似度计算中,可以提高相似度计算的准确性,进而提升推荐算法的推荐质量.实验结果表明:提出的改进算法较对比算法在公开数据集上能取得更好的推荐效果.  相似文献   

7.
在互联网母婴领域中,由于育婴网络自身的特殊性,推荐算法不仅与用户以及项目的信息有关还与儿童的数据信息有关,而传统的用户相似度计算并未考虑儿童的数据信息.针对此问题,重新定义用户相似度计算方法,将儿童的数据信息通过加权融合的方法融入用户相似度计算中,并提出一种融合儿童成长信息的协同过滤算法,实验结果表明,该算法的准确率与召回率都优于传统算法,推荐系统的推荐质量也有所提高.  相似文献   

8.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

9.
针对新闻的个性化服务差及推荐效率低的问题,提出了一种新闻事件的分布式混合推荐算法.该算法改进了传统的层次聚类算法用于新闻事件发现,通过协调簇中心距离和簇间最远距离的权重解决了传统层次聚类中的大簇问题;使用混合推荐算法进行事件推荐,引入了事件的多重特征来计算用户兴趣模型,更准确地表示用户的兴趣偏好;采用Spark分布式计算平台实现该算法,可处理大数据的个性化推荐问题.在公开数据集上的实验结果表明本文方法有效.   相似文献   

10.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

11.
为了提高移动用户位置预测的精度,提出了基于并行模式挖掘和路径匹配的移动用户位置预测方法,对传统的FP-GROWTH算法作了并行化处理,优化了节点负载分配方法,在Spark平台下挖掘用户移动频繁模式.改进了基于索引的路径相似度算法,提出基于路径最短距离的相斥度算法,提高了对轨迹数据缺失的适用性.在真实的用户轨迹数据集上实验表明,提出的基于轨迹相斥度预测方法相比马尔可夫模型和卡尔曼滤波模型拥有更高的预测精度,预测精确度平均提升7%左右.  相似文献   

12.
提出了建立Linked Data数据集主题模型的方法.首先,将数据集中的RDF陈述三元组转换成主谓宾结构的语句,从而将Linked Data数据集转化为文本文档;然后,使用LDA算法对所有数据集的文本文档进行主题建模,即可得到每个数据集的主题向量,该向量就是描述数据集内容主题的特征.在Linked Data数据集链接目标推荐问题上,引入数据集的主题特征进行实验.使用数据集主题向量的余弦相似度替换基于记忆的协同过滤推荐算法中的相似度计算模块.结果表明,推荐效果比原始的协同过滤算法有很大提升.  相似文献   

13.
利用基于位置的社交网络(LBSN)中的共享位置信息,提出一种结合相遇和拓扑结构的朋友推荐算法.该方法定义用户关系为相遇模型,通过考虑朋友间时间和空间的相遇特征,基于随机路点模型计算轨迹间在相同时间下的相遇频率作为用户相似度,结合拓扑相似度作为最终的推荐依据.实验结果表明,所提出的方法较传统基于拓扑的好友推荐算法准确率更高.  相似文献   

14.
协同过滤推荐算法是目前个性化推荐系统中应用比较广泛的一种算法,但也同样面临着数据稀疏性、冷启动、可扩展性等问题.本文主要针对数据稀疏性问题和冷启动问题导致的推荐效果不精确,提出了一种改进的数据填充方式和相似度计算方法.首先根据用户评分习惯对用户进行层次聚类,其次利用用户基本信息如年龄初步计算用户之间的相似度,并将共同评分项所占比值作为权重得到用户相似度,最后利用Slope-one算法计算前K个相似用户的填充值,加入相似度的权重以获得最终填充值.计算相似度寻找近邻集时,将用户基本属性作为相似度权重,并且引入Sigmoid函数来添加时间戳对相似度的影响,并得到最终的相似度计算方法. 实验结果表明,推荐精度得到了显著提高,数据稀疏性问题和冷启动问题得到了改善.  相似文献   

15.
针对协同过滤推荐算法没有考虑推荐对象间语义关系的问题,提出一种融合推荐对象语义相似度的改进型协同过滤推荐算法.首先利用知识图谱表示学习算法将推荐对象的语义信息嵌入到一个低维语义空间;然后计算推荐对象之间的语义相似度,把该语义相似度融合到协同过滤推荐算法的相似度计算中,弥补协同过滤推荐算法没有考虑推荐对象自身语义知识的缺陷.实验结果表明,该改进型算法相比传统协同过滤推荐算法,具有更高的准确率、召回率和覆盖率.  相似文献   

16.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

17.
基于综合相似度迁移的协同过滤算法   总被引:1,自引:0,他引:1  
数据稀疏性问题是传统协同过滤算法的主要瓶颈之一.迁移学习通常是利用目标领域与辅助领域的潜在关系,对辅助领域进行知识迁移,以此来提高目标领域的推荐质量.现有的基于相似度迁移模型,普遍只利用了用户评分信息,并且在评分相似度计算上忽略了用户评分标准个性差异.针对这些问题,提出了一种综合相似度迁移模型,在相似度计算上,即利用了用户评分信息同时也利用了用户属性信息,并且考虑了用户间对满意度的打分标准的差异性,采用了用户评分分布一致性来衡量用户评分相似度的方法,提高了相似度计算的准确性,从而提高了数据迁移的质量.实验结果表明,该模型较其他算法能比较有效地缓解数据稀疏性问题.  相似文献   

18.
聚类集成作为数据挖掘的重要应用工具,得到了广泛的认可和研究.本文在投票法的基础上提出一种新的软聚类投票(VMSC)算法.算法首先求取平均隶属度矩阵,然后进行迭代优化.该算法能够消除噪声点影响,具有很好的稳定性.Spark云计算平台能够高效处理大数据.为了提出的算法处理大数据,在Spark云计算平台上实现并行的VMSC算法.VMSC算法实验用12组UCI数据集进行验证,并与sCSPA、sMCLAs HGBF及SVCE等软聚类算法进行对比.结果表明,VMSC算法对软聚类算法具有较好的集成效果.在Spark云计算平台上对VMSC算法并行实现.实验表明,该算法具有较理想的并行效果,能够有效处理大数据.  相似文献   

19.
将上下文感知信息融合到项目的相似度计算中,提出了一种结合上下文感知计算的协同过滤算法.以个性化音乐推荐为例,对用户及音乐的上下文信息进行分析,为用户进行个性化推荐,在公开的音乐数据集上进行实验,结果显示该算法提升了推荐精度,验证了算法的有效性.  相似文献   

20.
针对传统协同过滤算法存在的数据稀疏性和推荐范围问题,提出一种混合协同过滤推荐方法.该方法将两种传统算法结合,并综合考虑了项目标签属性等信息.首先利用基于项目的协同过滤算法生成预测评分,并替换原始用户-项目评分矩阵中的零值.其次利用基于用户的协同过滤算法计算填充后矩阵的用户相似度,以及预测评分并产生最终推荐.最后基于MovieLens数据集实验证明,该方法能够有效提高推荐精度,扩大推荐范围.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号