首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

2.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

3.
kNN算法作为一种简单、有效的分类算法,在文本分类中得到广泛的应用。但是在k值(通常是固定的)的选取问题上通常是人为设定。为此,本文引入了重构和局部保持投影(locality preserving projections,LPP)技术用于最近邻分类,使得k值的选取是由样本间的相关性和拓扑结构决定。该算法利用l1-范数稀疏编码方法使每个测试样本都由它的k(不固定)个最近邻样本来重构,同时通过LPP保持重构前后样本间的局部结构不变,不仅解决了k值的选取问题,并且避免了固定k值对分类的影响。实验结果表明,该方法的分类性能优于经典kNN算法。  相似文献   

4.
分块噪声自适应高光谱图像去噪算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
高光谱图像在获取过程中容易产生噪音,从而影响了地物空间信息的识别。噪声去除是高光谱图像处理十分必要的步骤。结合低秩矩阵分解理论,在传统奇异值阈值方法的基础上提出基于分块的噪声自适应遥感去噪方法。实验结果证明,该方法运算速度快,并能够有效去除缺失值造成的死线噪声以及高斯噪声,在平均峰值信噪比(MPSNR)和平均结构相似性(MSSIM)上优于Godec算法。  相似文献   

5.
一种基于特征加权的K Nearest Neighbor算法   总被引:1,自引:0,他引:1  
传统的KNN算法一般采用欧式距离公式度量两样本间的距离.由于在实际样本数据集合中每一个属性对样本的贡献作用是不尽相同的,通常采用加权欧式距离公式.笔者提出一种计算权重的方法,即基于特征加权KNN算法.经实验证明,该算法与经典的赋权算法相比具有较好的分类效果.  相似文献   

6.
基于关系马尔可夫模型的枚举型缺失值估计   总被引:1,自引:1,他引:0  
针对数据质量中数据缺失问题,提出了基于关系马尔可夫模型(RMM)的枚举型缺失值估计方法.该方法充分考虑属性间的关联性,将动态属性选择(DAS)方法与RMM结合,最大限度地利用完整数据的信息,提高了该方法的估计能力;利用RMM计算源状态到目的状态的转移概率,采用MaxPost和ProProp 2种缺失值填充方法,对缺失值进行填充.采用公认数据集,进行了对比实验,验证了该方法的有效性和优越性.  相似文献   

7.
现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.  相似文献   

8.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

9.
提出判别字典学习来获取线性子空间方法,以减弱光照等噪声对子空间人脸特征提取的影响,从而在保证稀疏系数的局部结构性同时保持字典的判别性.首先,训练与语意相关的结构字典,并在破坏非同类语意样本间局部结构稀疏性的同时,增强同类语意样本间局部结构的稀疏性;其次,利用最大间隔准则(MMC)在重构后稀疏易分的语意子空间对样本进行特征提取,不仅可以避免小样本问题还可以在重构后的语意空间中提取抗噪声干扰的特征.在Yale库、AR库和Yale B库数据集上的试验结果表明:与现有算法相比,该算法有更优的性能,能更高效地提取不受噪声干扰的易分类人脸语意特征.  相似文献   

10.
二值图像中基于连通集的滤波算法   总被引:4,自引:4,他引:0  
根据OCR应用系统中二值图像应用的特点,介绍了一种利用连通性来去除二值图像中噪声的滤波算法,并与中值滤波和区域填充法进行了比较.试验表明,该方法在运行速度和去噪效果上都优于中值滤波和区域填充法。在该OCR系统的应用中具有很强的实用性.  相似文献   

11.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求.  相似文献   

12.
基于学习的彩色人脸图像超分辨率重构研究   总被引:1,自引:0,他引:1  
提出了一种基于四元数模型的彩色人脸图像超分辨率重构算法.该算法利用主成分分析的主要思想,同时结合插值算法的理论,前期进行整体约束,后期进行分块处理,对人脸图像进行超分辨率重构.同时使用奇异值分解去除彩色图像中的噪声,针对主成分分析算法不太忠实于原图像的弱点进行改进;使用四元数表示彩色图像,将R,G,B三个分量同时进行处理.分析结果表明,该算法既利用了彩色分量的相关性,又提高了运算效率.  相似文献   

13.
基于嵌套滑动窗口的数据流缺失数据填充算法   总被引:1,自引:0,他引:1  
提出了一种基于嵌套滑动窗口的缺失数据填充算法.考虑到传感器数据流的时效特性,采用嵌套滑动窗口选取空间相关度高且距离最近的数据作为样本数据,之后分两种情况对缺失数据进行填充.算法首先通过皮尔逊相关计算对数据的空间性进行分析,应用嵌套滑动窗口对缺失数据相关的数据进行采样,得到强相关数据,之后采用MKNN算法进行精确填充.通过皮尔逊相关分析和嵌套窗口采样,极大地降低了数据样本大小,提高了缺失数据处理实时性;对于不具有强的空间相关的缺失数据,考虑到短时间内采集数据间强的时间相关性,采用线性相关法对数据进行填充,降低算法复杂度.实验表明,该算法能够实时、精确地对数据流缺失数据进行填充.  相似文献   

14.
针对小样本数据样本容量不足与分布不平衡的设备寿命预测问题,构建基于改进SMOTE算法与改进KNN(K-NearestNeighbor)算法联合优化模型。首先,设置噪声比例系数β排除样本数据中的噪声,随后通过类B-SMOTE(Borderline-SMOTE)算法与传统SOMTE算法结合构建改进SMOTE(ISMOTE)算法对存在分布问题的少数类样本进行新增优化,避免因为样本分布不平衡以及样本数量较少引起的偏差。其次,针对分类过程中边界模糊的样本点,通过利用粒子群算法寻求每个样本种类中心点并计算样本距离均值建立分隔阈值■,对阈值范围内的样本点利用“投票法”判断样本种类,规避KNN算法在处理数据时因为不同种类样本混合而出现误差的问题。最后,通过利用美国卡特彼勒公司液压泵状态数据以及凌津滩水电站水导轴承振动数据进行仿真,算例证明上述两种改进算法在面对小样本不平衡设备数据时可以准确分析设备运行状态以及预测设备未来健康发展趋势。  相似文献   

15.
基于PCA改进的快速Adaboost算法研究   总被引:1,自引:1,他引:0  
针对传统的Adaboost算法可能出现在应对较大训练数据集训练时间过长的问题,提出了一种改进的Adaboost算法——PCAdaboost。改进算法利用PCA方法的降维技术,对训练样本特征提取主要成分,去除输入样本特征间的相关性,提高分类精度。同时,从样本阈值搜索角度考虑了特征值等分和特征值空间维数,给出了阈值快速搜索方法。实验结果表明,该算法在UCI数据集上取得较好的效果。  相似文献   

16.
不完备数据聚类是聚类分析中的一个重要问题.现有的不完备数据聚类算法对缺失值仅填充一次进行聚类,没有充分利用数据的已知信息,致使填充效果不佳,影响了聚类的有效性.文章提出了一种基于动态填充的不完备数据聚类算法.首先利用均值填充法对缺失数据进行初始完备化,然后利用K-means算法对填充后的数据集进行聚类,同时用含缺失值对象所在类的类中心的相应属性值对其再次填充,直到聚类结果不再变化时停止.该算法在多个UCI数据集上进行了实验验证,结果表明算法是有效的.  相似文献   

17.
提出了一种新的图象脉冲噪声消除算法,该方法可以快速有效地去除图象中的脉冲噪声,并保留图象的细节。该算法主要通过利用象素点邻域的中值与最大、最小值信息,决定噪声象素的取值。对本算法与中值滤波算法进行了分析仿真,结果表明,本算法去除噪声与保留细节的效果好,对高强度的脉冲噪声也有比较好的滤波效果。  相似文献   

18.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

19.
针对数据预处理中的遗失值填充问题,运用策略模式设计了一种可扩展的遗失值填充算法;构造了SimpleImputation,KNNImputation和DTBImputation 3个具体的策略类,分别封装了简单遗失值填充算法、KNN遗失值填充算法以及DTB遗失值填充算法.实验结果表明:简单填充算法执行速度最快但精度最低,DTB算法执行速度较慢但精度较高,KNN算法执行速度最慢但精度最高.该算法允许用户根据自身对速度和精度的需求来选取相应的填充算法,并通过添加新策略类的方式来扩展其遗失值填充功能,从而解决了遗失值造成的数据质量问题,提高了数据预处理程序的通用性和可扩展性.  相似文献   

20.
针对轴承振动信号中早期故障特征难以识别的问题,提出了利用非相关字典学习稀疏提取微弱冲击特征,进而完成故障诊断的方法。字典的构造是影响稀疏表示算法性能的关键步骤,而传统字典学习方法构造的冗余字典,原子之间具有很强的相关性,不足以表现信号不同的结构特性,也不利于信号准确稀疏重构,进而影响了冲击故障特征信号的提取。因此,在K均值奇异值分解算法(K-SVD)的基础上加入了原子解相关的步骤,形成了非相关字典学习算法(INK-SVD)。采用INK-SVD算法在含噪振动信号段样本中,学习构造低相关性自适应字典;在此基础上,利用稀疏表示方法准确提取冲击故障特征,从而实现更准确的轴承故障诊断。通过仿真分析及实验数据分析,与传统字典学习方法相比,该方法稀疏系数恢复精确度更高,重构信号的包络解调谱更有利于故障特征的辨识,从而验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号