首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

2.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

3.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

4.
为了解决基于KNN(K-Nearest Neighbors)算法的非参数回归短时交通状态预测模型执行效率低的问题,提出了KNN算法的数据优化策略。通过对交通状态时空特性的研究,采用层次化对象构造交通状态向量,并根据交通状态的自重复性对历史样本数据库进行数据压缩。实验证明,优化策略提高了KNN算法的执行效率,经过压缩后的数据存取时间比压缩前缩短了8.66%。  相似文献   

5.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

6.
不完备数据聚类是聚类分析中的一个重要问题.现有的不完备数据聚类算法对缺失值仅填充一次进行聚类,没有充分利用数据的已知信息,致使填充效果不佳,影响了聚类的有效性.文章提出了一种基于动态填充的不完备数据聚类算法.首先利用均值填充法对缺失数据进行初始完备化,然后利用K-means算法对填充后的数据集进行聚类,同时用含缺失值对象所在类的类中心的相应属性值对其再次填充,直到聚类结果不再变化时停止.该算法在多个UCI数据集上进行了实验验证,结果表明算法是有效的.  相似文献   

7.
针对近邻传播算法无法有效处理高维数据而导致聚类效果不佳的问题, 提出一种基于奇异值分解的自适应近邻传播(SVD-SAP)聚类算法. 通过引入奇异值分解, 对高维数据进行重构、 降维, 消除冗余信息, 并在此基础上采用非线性函数策略, 自适应地调整阻尼系数, 提高算法的聚类性能. 仿真实验结果表明, 与已有算法相比, 该改进算法聚类精度更高, 收敛速度更快.  相似文献   

8.
传统的K最近邻算法(KNN)算法可以解决话务分析专家系统中的求解问题,但KNN算法的不足在于K值的确定与执行效率,因此改进K值选取与加权方法,对提高算法运行效率与准确性具有重要意义.本文提出了一种改进K值选取方法及依托频率的权重计算方法,用于实例检索,并采用改进后的实例推理,构建了话务故障专家系统.实验结果表明,改进算法在实例匹配准确性与执行效度上,均优于传统方法.  相似文献   

9.
分析了在含有遗失值的数据集上如何进行有效的数据填补,以便更客观地反映数据集中数据所隐含的内在联系.通过采用粗糙集理论的有关思想和方法,用相似关系代替粗糙集理论中的不可分辨关系,提出了基于相似关系的填充算法,提高了遗失数据填补的精确度.数据实验表明了该方法的有效性和可行性.  相似文献   

10.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

11.
实际测井数据由于数据规模大、维数高等特点,在采集、传输、存储中很有可能会发生数据的缺失或损坏。为了提高数据质量,采用压缩感知中的基追踪算法对测井中的缺失数据进行恢复。先使用过完备字典对原始数据进行稀疏分解,采用基追踪算法将L0范数优化问题转化为L1范数问题;然后采用线性规划算法——内点法求解,从而实现数据恢复。通过实验与对比分析,结果表明基于基追踪的测井数据恢复方法精度高;且优于基于正交匹配追踪的数据恢复方法。  相似文献   

12.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

13.
针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.  相似文献   

14.
针对民用建筑"四节一环保"原始数据中存在的数据质量问题,使用多种方法实现数据清洗与数据修复。数据清洗方面,重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中,识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面,重点关注缺失值的填补及基于模型的数据修正。其中,缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法,并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型,拟合建筑运行能耗与各解释变量间的关系,对上海市建筑运行能耗相关数据进行数据修复。结果显示,单栋建筑能耗数据适合采用箱线图内限来识别异常记录,并使用中位数填补缺失数据;上海市建筑运行能耗相关数据中,岭回归模型的拟合情况最好。  相似文献   

15.
缺损属性的补充方法——迭代MVC   总被引:1,自引:0,他引:1  
迭代MVC法是一种基于关联规则推导的缺损属性补充方法,通过RAR(Robust Association Rules)算法产生候选关联规则,使用补充关联规则选择策略和用户的交互选出补充关联规则,进行缺损属性的补充,减少补充属性的噪音引入,提高数据补充的正确度,增强数据挖掘的精确度。  相似文献   

16.
本文采用主成分分析与BP神经网络相结合的方法对试飞数据进行了预测,同时还对BP神经网络主成分分析法与全要素BP神经网络分析法进行了比较.结果表明BP神经网络主成分分析法具有精度更高、收敛速度更快等特点。  相似文献   

17.
在原有基于可扩展函数族聚类的基础上,提出了自适应可扩展函数族概念,对原来的算法CIFF和CDFF作了改进,将阈值理论与可扩展函数族相结合,设计了新的聚类算法,并对其聚类性能作了分析。实验结果表明,用自适用可扩展函数族方法进行聚类,不但使聚类在可伸缩性、增量数据处理及复杂数据类型处理等方面都表现出很好的性能,而且与原算法相比,具有聚类精度高、速度快等优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号