首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

2.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

3.
双聚类作为一种无监督的学习方法,其作用是对基因表达数据进行分析.为了获取较大容量的双聚类簇,弥补传统的双聚类方法在基因表达数据一致波动性方面的不足,引入粗糙集的上、下近似集概念,将粗糙集理论运用到模糊双聚类算法中,将粗糙上、下近似集与加权均方残差相结合,得到新的粗糙均方残基,进而提出一种基于粗糙均方残基的模糊双聚类算法.针对基因表达数据集,首先进行缺失值填补;其次,用非负矩阵分解算法对基因数据集进行降维;最后,计算数据矩阵的粗糙均方残基,结合综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到容量更大的双聚类结果.实验结果表明,该模糊双聚类算法是有效的.  相似文献   

4.
针对当前推荐算法存在数据稀疏性、冷启动和缺乏时效性的问题,为提高推荐质量,提出了一种基于模糊聚类和评论时效的推荐算法,并应用于在线点餐系统中。在协同过滤的基础上,充分利用模糊C均值聚类算法确定目标用户邻近用户集,再利用改良的项目相似性计算最近邻居集,并填充用户项目评分矩阵,最后引入用户评论相似度和评论时效预测最终评分。实验结果表明,该算法明显优于传统的推荐方法,能够获得较好的推荐精度。  相似文献   

5.
模糊C均值聚类算法(FCM)由于样本模糊隶属度归一性的约束,导致FCM算法对噪声数据敏感。提出松弛模糊C均值聚类算法(RFCM),RFCM算法在可能性C均值聚类算法(PCM)目标函数的基础上,放弃了FCM算法单个样本模糊隶属度归一化约束,转为n个样本模糊隶属度之和为n的约束;并利用粒子群算法对样本模糊隶属度进行优化估计,使得模糊指标可拓展为m0的情况,同时采用梯度法得到RFCM算法聚类中心迭代公式。RFCM理论分析了算法对噪声数据抗噪的原理,解释了RFCM算法模糊指标m0的合理性,讨论了RFCM算法的收敛性。基于Gauss数据集和UCI数据集的仿真测试验证了所提出算法的有效性。  相似文献   

6.
基因表达谱数据分析已经逐渐成为疾病诊断和分类的常规步骤.目前人们对NMF(nonnegative matrix factorization)的大多数研究都专注于二因式分解.论文另辟蹊径,对BONMTF(bi-orthogonal nonnegative matrix tri-factorization)算法进行了系统化的分析,利用此算法得到表征样本属性的矩阵,并将其应用于基因表达谱数据分析,提高了样本识别率.实验采用4组具有代表性的肿瘤基因表达谱数据,其结果证明了论文方法针对不同数据集的识别率都比传统方法有所提高,具有一定的可行性及应用前景.  相似文献   

7.
刘星毅 《科技信息》2007,(27):418-420
在数据挖掘和机器学习领域,缺失数据经常出现。本文杂合了kNN算法和基于核函数的非参填充方法,实验显示,在处理离散型缺失数据时,我们的这种杂合方法在分类准确率的实验中好于kNN算法以及常用的一些方法(例如C5.0填充方法,最大类方法和不填充的方法),在处理连续型的缺失属性时,我们的方法在预测准确率的实验结果中也好于kNN算法和基于核函数的非参填充方法,以及一些常见方法,(例如均值填充方法)。  相似文献   

8.
模糊C均值算法(FCM)是图像分割最常用的算法之一,这种方法需要提前确定初始聚类中心和聚类数.为此,提出了一种新的自适应模糊聚类算法(AFCM),AFCM算法中构造的观察矩阵、判断矩阵和集合划分可以自动确定合适的聚类数.为了得到更好的图像分割效果,采用核距离作为相似性度量,提出了一种鲁棒性自适应模糊C均值算法(RAFCM).实验结果表明,与FCM算法相比,AFCM和RAFCM算法不仅能自动地确定聚类数目,还可以得到更好的图像分割质量.  相似文献   

9.
研究表明阿尔茨海默病(AD)的致病机理可能与基因有关.利用计算方法对AD基因表达数据进行挖掘,以获得AD候选致病基因,寻找治愈AD方法.结合生物信息理论应用基于主成分分析(PCA)方法的模糊C均值算法处理基因表达数据:观察到AD基因表达数据具有线性相关性后,先用PCA对数据降维,再利用一维分类方法对降维后的数据聚类,然后将结果提供给模糊C均值算法作为其初始聚类数目和聚类中心.通过算法,最终识别出9个AD候选致病基因.  相似文献   

10.
提出了一种基于多层次聚类的算法,此算法相对传统算法降低了空间和时间复杂度,并减少了对参数的敏感度,适合处理大规模数据集.该算法包括粗分、代表点聚类和细分三个阶段.首先,利用亲和传播聚类(AP)算法对所有数据进行粗分,为了节省空间和时间,仅考虑每个点和离自己最近的t个近邻之间的相似度,所以构造的相似度矩阵远远小于原始AP算法所构造的相似度矩阵;其次,为了进一步提高效率和性能,在第二阶段采用密度峰值算法(FDP)对上一阶段所得结果进行再划分;最后,结合两个阶段划分的结果得到所有数据的划分.实验表明:所提算法可以快速准确地进行图像分割,和经典聚类算法FCM(模糊C均值)、Kmeans以及SOM(自组织映射)的对比实验也证明了所提算法的有效性.  相似文献   

11.
针对传统矩阵补全无约束优化模型在处理奇异噪声损坏的缺失矩阵时鲁棒性较差的问题, 提出一种自适应的鲁棒性矩阵补全方法. 该方法在目标函数中使用截断核范数作为秩函数旳低秩逼近, 并采用对奇异噪声鲁棒的F范数作为损失项恢复矩阵中的缺失值, 以降低异常值对算法的影响, 提高恢复精确度. 在求解该模型过程中, 先采用凸优化技巧引入一个动态权重参数, 此参数可在更新恢复值时根据当次恢复误差大小自适应地调节下一次更新, 再进一步建立求解优化问题的有效迭代方法. 实验结果表明, 该算法在处理被奇异噪声损坏的矩阵时有较好的鲁棒性和精确性, 从而可得到更好的图像修复效果.  相似文献   

12.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

13.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

14.
数据分析中存在数据集矩阵缺失,可用数据矩阵补全缺失数据元素,高效的补全数据矩阵算法可从算法精度等方面优化提升.为此提出对称加权(SW)算法,首先,根据通用的矩阵补全模型,用正则化方法进行低秩矩阵分解补全;其次,对分解后的矩阵因子用共同的对称矩阵加权,得到新的矩阵补全模型和正则化加权函数;最后,结合块坐标下降和交替最小二乘法优化算法,迭代得到目标函数最优解,获得数据补全的最优补全矩阵.仿真结果表明,与APALM,IRSVF和IRNN算法相比,对称加权算法在数据矩阵补全的精度和算法收敛速度方面均有较好提升.  相似文献   

15.
针对传统的协同过滤推荐算法中评分矩阵过于稀疏和算法准确度不高的问题,提出一种融合矩阵分解和XGBoost算法的推荐算法(MFXGB,Matrix Factorization XGBoost),其特点是利用SVD++算法(SVD,Singular Value Decomposition)对用户项目评分矩阵进行填充,避免过多的缺失值对算法精确度的影响,再利用XGBoost(eXtreme Gradient Boosting)算法训练有监督的模型用于预测用户评分.为了克服计算成本过高的困难,提出利用K-均值聚类方法进行特征提取用于训练XGBoost模型.将MFXGB算法应用于MovieLens数据集进行实验分析,结果显示,MFXGB算法的推荐精确度比传统的3种方法分别提高了8.91%、10.18%和11.79%,效果明显优于传统的推荐算法.  相似文献   

16.
个性化推荐系统中遗漏值处理方法的研究   总被引:2,自引:0,他引:2  
为了高效地解决协同过滤算法中的遗漏值问题,而不是简单地用缺省值加以代替,提出了一种新的、在协同过滤中的遗漏值处理方法.其基本思想是,先利用具有最小方差的局部主成分,把包含有遗漏值的不完备数据集划分成多个模糊聚类,然后通过求解广义逆矩阵来获得各个子聚类的主成分,最终在局部主成分的基础上通过简单的线性方程模型去估计聚类中的遗漏值.实验表明,这种方法的优点是低内存需求,具有较小的平均绝对偏差值,并且显示出了比传统推荐算法更好的推荐质量.  相似文献   

17.
在异步条件下应用特征值分解算法估计变换域通信系统基函数时,分段得到的特征向量存在模糊现象,此时将造成系统接收性能的下降。为了解决此问题,提出了基函数周期序列的同步算法。详细分析估计基函数的特征值分解算法,推导接收数据的采样延时与其自协方差矩阵特征值的关系式,得到同步参数的最大似然估计方法,依据范数的等价性原理,进一步将最大似然估计中的最大特征值求解问题转化为F-范数的求解以降低算法复杂度。仿真结果表明:相比最大特征值算法,采用F-范数的估计算法性能一致,但计算时间明显减少,算法的估计精度与接收信噪比成正比。异步条件下当估计的基函数存在模糊时,系统接收性能在同步之后能得到较好的改善。  相似文献   

18.
在异步条件下应用特征值分解算法估计变换域通信系统基函数时,分段得到的特征向量存在模糊现象,此时将造成系统接收性能的下降。为了解决此问题,提出了基函数周期序列的同步算法。详细分析估计基函数的特征值分解算法,推导接收数据的采样延时与其自协方差矩阵特征值的关系式,得到同步参数的最大似然估计方法,依据范数的等价性原理,进一步将最大似然估计中的最大特征值求解问题转化为F-范数的求解以降低算法复杂度。仿真结果表明:相比最大特征值算法,采用F-范数的估计算法性能一致,但计算时间明显减少,算法的估计精度与接收信噪比成正比。异步条件下当估计的基函数存在模糊时,系统接收性能在同步之后能得到较好的改善。  相似文献   

19.
针对缺失属性值数据分类算法中模型分类精度和泛化能力低的问题, 提出一种基于模糊规则的缺失属性值数据分类算法, 即“循环 接收”模型. 该算法不需要对缺失属性值数据进行插补运算, 可直接对该数据集进行分类. 对UCI公开数据集进行模拟仿真实验, 实验结果表明, “循环 接收”模型与其他算法相比具有更高的分类精度和泛化能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号