首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 485 毫秒
1.
为提高传统协同过滤算法在个性化推荐系统中的大数据处理能力,研究了一种基于模糊聚类的并行推荐算法。在Hadoop平台下首先通过PCA降维和FCM聚类对用户物品评分矩阵进行预处理,采用皮尔逊相关系数计算用户间的相似度,通过得到的聚类簇集合构建最近邻集合,生成基本预测评分。最后实现算法的并行化处理并得到推荐结果。实验结果表明,与基于PCA降维的协同过滤和单机式传统协同过滤算法相比,该算法提高了推荐的准确性和实时性。  相似文献   

2.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

3.
为了解决传统的协同过滤推荐算法中评分矩阵稀疏及近邻搜索耗时长导致的推荐准确性及时间效率有待提升的问题,设计了一种融合PCA降维和均值漂移聚类的协同过滤推荐算法PMCF。该算法用主成分分析法PCA保留最能代表用户兴趣的维度,以缓解评分矩阵稀疏问题;用均值漂移聚类算法在降维后的低维向量空间上对用户聚类,以减小目标用户最近邻的搜索范围。在Movielens数据集和HetRec2011-Movielens-2k数据集上的实验结果表明,PMCF算法能够有效地提升推荐结果的准确性,同时具有较高的时间效率。  相似文献   

4.
降维作为聚类问题的关键预处理步骤被用来抽取高维数据潜在的低维子空间结构.面对高维数据聚类,传统的策略是首先采用降维技术提取高维数据嵌入在低维空间的潜在数据结构,然后利用一个聚类算法完成数据聚类.然而,这种两阶段优化策略的聚类性能往往不如直接优化统一的目标函数.因此,在模糊聚类算法的基础上,本文提出了一种稀疏约束的嵌入式模糊均值聚类算法(EFSC),该方法结合线性正交投影技术在对高维数据降维的同时完成聚类.EFSC模型对模糊矩阵施加了稀疏约束来提升聚类性能.理论分析与实验结果证明了本文提出的EFSC算法的有效性.  相似文献   

5.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

6.
研究表明阿尔茨海默病(AD)的致病机理可能与基因有关.利用计算方法对AD基因表达数据进行挖掘,以获得AD候选致病基因,寻找治愈AD方法.结合生物信息理论应用基于主成分分析(PCA)方法的模糊C均值算法处理基因表达数据:观察到AD基因表达数据具有线性相关性后,先用PCA对数据降维,再利用一维分类方法对降维后的数据聚类,然后将结果提供给模糊C均值算法作为其初始聚类数目和聚类中心.通过算法,最终识别出9个AD候选致病基因.  相似文献   

7.
维数灾难是数据挖掘过程中的重要问题.为解决K均值聚类过程中的维数灾难问题,本文以欧式距离作为距离的计算方式,采用主成分(PCA)方法对数据源进行降维,实验获得在不同数据规模、特征下的K均值方法的聚类时间.设置对照组对时间、差异性、迭代次数三个方面进行比较.通过实验总结出,数据源的大小与维数共同影响降维聚类的时间效益:数据数量越大,降维聚类的时间收益越大,数据维数越大,降维聚类的时间收益越小;数据源的线性程度影响降维聚类与非降维聚类结果的差异大小:数据线性程度越高,两次聚类结果差异性越小.反之,差异性越大;K均值算法收敛速度很快,两次聚类都能在Sqrt(Row)次数内完成程序的收敛.  相似文献   

8.
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类.  相似文献   

9.
针对主成分分析(PCA)假设数据服从高斯分布的条件以及只能处理特征之间线性关系的不足,提出一种基于Yeo-Johnson变换和最大信息系数(MIC)的PCA特征抽取算法,命名为YJ-MICPCA。通过YeoJohnson变换改善原始数据分布,使其近似服从高斯分布,并将PCA中计算协方差矩阵转化为计算MIC矩阵的平方,使其也能处理特征间存在的非线性关系。以UCI机器学习数据库中的11个数据集为实验对象,采用支持向量机、朴素贝叶斯模型、k近邻算法这3种分类器,比较了YJ-MICPCA与PCA及其他常用非线性降维方法LLE、Isomap、MSD、KPCA的降维效果和分类精度,结果表明YJ-MICPCA总体上优于其他几种算法。  相似文献   

10.
高维数据受冗余数据和噪声数据的影响,聚类效率和准确率低,基于拉普拉斯矩阵的特征值和特征向量的特点,介绍了一种适用于高维数据的新的聚类中心选择算法,算法将拉普拉斯矩阵用于候选聚类中心选择前的数据降维处理,经过对数据进行降维处理,提高了候选聚类中心的准确性,增大了聚类准确率,扩大了聚类数据的种类范围.在10个包含不同数量样本、维度、类别数的数据集上进行了聚类分析,实验结果表明了基于拉普拉斯降维的新聚类中心选择方法的有效性.  相似文献   

11.
为了克服传统协同过滤(CF)推荐方法数据稀疏和可扩展性差的不足,该文提出1种基于局部优化降维和聚类的协同过滤算法。采用局部优化的奇异值分解(SVD)降维技术和K-均值(K-means)聚类技术对用户-项目评分矩阵中的相似用户进行聚类并降低维度。利用近似差分矩阵表示评分矩阵的局部结构,实现局部优化。局部优化的SVD降维技术可以利用更少的迭代次数缓解CF中数据稀疏和算法可扩展性差的问题。K-means聚类技术可以缩小邻居集查找范围,提高推荐速度。将该文算法与基于Pearson相关系数的协同过滤算法、基于SVD的协同过滤算法、基于K-means聚类的协同过滤算法相比较。在MovieLens数据集上的实验结果表明,该算法的平均绝对误差(MAE)较其他算法降低了大约12%,准确性(Precision)提高了7%。  相似文献   

12.
李顺勇  余曼  王改变 《河南科学》2020,38(10):1549-1557
为了对含有多个特征向量的分类矩阵对象数据进行描述,提出了一种新的基于簇间信息的分类矩阵对象数据的聚类算法(between-cluster k-modes,简称BC-k-modes).该算法利用k-modes算法的聚类过程,对分类矩阵对象数据进行聚类,导出隶属度矩阵与聚类原型的更新公式,通过增加簇间信息对目标函数寻求局部最优解.最后在五个真实数据集上进行了实验,结果表明该算法对真实数据的聚类效果明显优于其他算法.  相似文献   

13.
二维非参数化判别分析方法中的人脸识别算法研究   总被引:1,自引:0,他引:1  
在使用传统线性判别分析方法计算类间散射矩阵时,使用类中心来近似表示各个类,类内散射矩阵的定义有一定的局限性,从而导致算法性能不稳定、小样本、数据的高斯分布假设及维数困扰等问题.提出了一种用于人脸识别的二维非参数化判别分析方法,对类间散射度矩阵和类内散射度矩阵进行了重新定义,考虑了各类数据的边界结构.通过在ORL标准人脸数据库上的实验结果,验证了算法相对于传统算法的鲁棒性和准确率.  相似文献   

14.
通过结合PCA与LLE两种降维方法,提出新的PCA_LLE算法,使它们优势互补.在手写体数字数据集上进行实验,先对数据集降维,再用K近邻算法对降维后的数据分类.实验结果表明融合两种算法的PCA_LLE降维方法较原来的PCA和LLE算法准确率均有了提升.而且新算法PCA_LLE对新样本的降维时间较LLE算法减少很多.在ORL人脸数据集上的实验表明,PCA_LLE算法较PCA,LLE算法准确率有所提高.  相似文献   

15.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

16.
室内定位环境中接入节点(access point,AP)部署密集时,针对参考节点(reference point,RP)接收到邻近AP的接收信号强度(received signal strength,RSS)数据相关性大,而导致聚类过程中聚类中心相关性高、聚类不准确等问题,提出了一种基于K-L变换的聚类算法;该算法通过K-L变换对RSS指纹数据去相关处理来保留原始指纹数据最大的特征信息数据,然后通过k-means聚类算法聚类能够得到更高的聚类准确率,从而来提高定位精度。实验结果表明,该算法比没有经过K-L变换去相关处理的聚类算法聚类准确率要高;并且在实验过程中确定RSS数据经K-L变换降维之后的维数为5、聚类中心数为5时,定位误差在2 m以内的概率提高了9.3%。  相似文献   

17.
针对旋转机械故障数据集因高维和信息冗余而导致故障分类困难的问题,提出有效降低数据维数的组稀疏残差判别保持图嵌入算法.首先,该算法改进了类间稀疏编码的方式,得到了更具判别性的类间稀疏权重矩阵;然后,通过加权的方式清除特征集中离群点对稀疏编码的影响;最后,以类内重构散度最小、类间重构散度最大为目标计算最优判别投影矩阵.通过Iris仿真数据集和双跨转子系统的故障数据集对所提算法进行验证,并与其他几种典型降维算法对比,证明该算法能够同时兼顾数据分布状态的全局性和局部性,使故障类别之间差异性更突出,并能够提高故障模式识别准确率.研究表明,该算法可为转子故障智能诊断提供参考依据.  相似文献   

18.
针对传统的协同过滤推荐算法存在数据稀疏性、冷启动,影响推荐结果的准确性等问题,提出了一种改进的协同过滤推荐算法。使用基于随机梯度下降优化求解的矩阵分解方法,将原始矩阵分解为较低维的用户特征矩阵和特征产品矩阵;引进产品外部属性信息,运用谱聚类算法对产品聚类,构建属性—特征之间的映射关系,填充特征产品矩阵。所提出的算法不需要对原始评分矩阵进行数据填充,相较于传统的固定值填充方法,不需要系统提供大量的空间存储评分矩阵,并且在评分预测过程中采用降维技术,可以有效地缓解数据稀疏性对推荐结果准确性的影响。  相似文献   

19.
针对传统Single-Pass聚类算法存在的缺陷,提出了一种基于自编码神经网络的Single-Pass聚类算法。通过多个深层的隐藏层对原始数据进行降维,以更好地提取出原始数据的特征信息;并通过对边缘文本重计算来降低误检率,提高聚类精度。实验结果表明,该算法相比传统Single-Pass算法具有更高的聚类准确度,解决了聚类结果受数据顺序影响的问题。  相似文献   

20.
为了解决大量高维数据分类的问题,给出一种基于半监督判别最大熵模糊的聚类算法.该算法不仅继承了已有FLDA-MEFCA算法的降维优势,而且可以充分利用监督信息来提高聚类性能.实验证明该算法的总体性能优于最大熵模糊聚类算法、FLDA-MEFCA和经典FCM类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号