首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
提出了一种基于极速学习机和最近邻的协同过滤回归推荐算法.该算法首先采用k最近邻法对评分矩阵的缺失值进行填充,然后将极速学习机作为回归器为用户产生推荐.在推荐领域中的标杆数据集上,将该算法与常用推荐算法-LRCF算法进行了比较,验证了该算法的有效性.  相似文献   

2.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

3.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

4.
基于嵌套滑动窗口的数据流缺失数据填充算法   总被引:1,自引:0,他引:1  
提出了一种基于嵌套滑动窗口的缺失数据填充算法.考虑到传感器数据流的时效特性,采用嵌套滑动窗口选取空间相关度高且距离最近的数据作为样本数据,之后分两种情况对缺失数据进行填充.算法首先通过皮尔逊相关计算对数据的空间性进行分析,应用嵌套滑动窗口对缺失数据相关的数据进行采样,得到强相关数据,之后采用MKNN算法进行精确填充.通过皮尔逊相关分析和嵌套窗口采样,极大地降低了数据样本大小,提高了缺失数据处理实时性;对于不具有强的空间相关的缺失数据,考虑到短时间内采集数据间强的时间相关性,采用线性相关法对数据进行填充,降低算法复杂度.实验表明,该算法能够实时、精确地对数据流缺失数据进行填充.  相似文献   

5.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

6.
针对中医临床在对有病个体分类时获得的数据很可能是不均衡的、缺失的,而且这种数据往往偏向于无病的个体这一问题,采用病例匹配最近邻填充算法(P-KNN算法)填充缺失值,同时使用基于风险预报准则特征选择的非对称Bagging(PRIFEAB)算法处理睡眠情绪类疾病的不均衡数据和特征选择问题。在中医临床采集的经络电阻数据上的实验结果显示,PRIFEAB算法改善了曲线下面积,并且选择的特征也符合中医学相关理论,同时P-KNN算法比平均值填充算法具有更好的性能。  相似文献   

7.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

8.
为解决医疗数据集中数据缺失对分类器的性能以及下游任务产生的不利影响,提出使用缺失森林插补法对医疗数据集中缺失值进行插补。该方法首先采用数据集中完整数据的观测值训练一个随机森林模型;利用训练好的随机森林模型预测缺失数据;不断重复迭代上述过程,从而完成数据缺失值补全。在两个医学数据集上进行测试,结果表明,根据NRMSE(Normalized Root Mean Squared Error)和PFC(the Proportion of Falsely Classified)评估指标,缺失森林插补法误差较低,插补效果优于K最近邻插补法、多重插补法和GAIN(Generative Adversarial Imputation Nets)插补法。同时,使用糖尿病数据集通过分析谷丙转氨酶(ALT:ALanine aminoTransferase)与糖尿病剂量反应关系证明了缺失森林插补法的稳定性。  相似文献   

9.
为解决肿瘤基因表达谱数据后续研究需要完整数据矩阵的问题,针对包含缺失点的数据集。提出基于矩阵填充(matrix completion)与模糊C均值(fuzzy c-means algorithm,FCM)相结合的缺失点估计方法(FCM_MC)。该方法充分利用肿瘤基因表达谱数据的冗余信息,通过模糊C均值聚类得到具有良好的低秩特性的基因语义片段,再利用矩阵填充方法分别对每个语义片段进行缺失点的重建。在不同数据集上进行实验,与传统缺失点估计算法比较。实验表明FCM_MC算法在缺失数据估计准确度和类结构保持度上效果得到有效提升,同时运行效率较高。  相似文献   

10.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号