首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

2.
在机器学习应用中,缺失值填补作为一种预处理技术,能有效提高数据的可用性,然而在缺失值较多或不均衡时,这些技术的效果并不理想.主动学习场景允许机器与用户交互,以获取少量关键数据,提高分类精度.针对主动获取数据量有限的问题,提出基于协同过滤加权预测的主动学习缺失值填补算法(Collaborative Filtering weighted prediction based Active Learning,CFAL).首先采用基于样本和基于属性的协同过滤方法分别预测缺失值;然后根据预测值的差异对数据进行排序,差异大的少量数据进行主动获取,差异小的少量数据利用预测值的平均值进行填补;重复该过程直到主动获取数据达到所给阈值上限,其余缺失值则使用预测值均值填补.实验在七个UCI常用数据集上进行,结果表明,与流行的几种填补算法相比,CFAL算法能更好地提升数据质量,应用于C4.5,kNN等算法能获得更高的分类精度.  相似文献   

3.
不完备数据聚类是聚类分析中的一个重要问题.现有的不完备数据聚类算法对缺失值仅填充一次进行聚类,没有充分利用数据的已知信息,致使填充效果不佳,影响了聚类的有效性.文章提出了一种基于动态填充的不完备数据聚类算法.首先利用均值填充法对缺失数据进行初始完备化,然后利用K-means算法对填充后的数据集进行聚类,同时用含缺失值对象所在类的类中心的相应属性值对其再次填充,直到聚类结果不再变化时停止.该算法在多个UCI数据集上进行了实验验证,结果表明算法是有效的.  相似文献   

4.
为提高燃烧效率及降低污染排放,基于运行数据的建模与优化是一种有效途径,但现场运行数据因传感器故障或传输失败等原因不可避免地存在缺失值,进而导致信息不完备,无法直接进行建模与优化.针对这一问题,采用一种基于时间相关性的缺失值填补算法,基于线性插值原理对平稳运行过程的缺失数据进行填补;针对非平稳运行工况,提出一种类平均值填补算法,并对其分类结果进行加权修正,进一步提高填补准确性;在此基础上,提出一种基于遗传算法的自适应加权类平均值填补方法,并在实际数据上进行测试分析,结果表明该方法具有更高的填补准确率.  相似文献   

5.
针对煤与瓦斯突出预测的数据不完整或缺失问题,提出一种基于miss Forest-EGWO-SVM的煤与瓦斯突出预测模型.以淮南地区的实测数据作为研究样本,采用missForest算法对样本数据进行缺失值填补;为解决SVM算法性能受参数影响大的问题,利用高效灰狼算法(EGWO)对SVM进行参数寻优;完善后的数据集作为EGWO-SVM模型的输入进行实验,与其他模型对比.研究结果表明:采用missForest填补缺失数据,提高了模型的突出事故预测率,EGWO-SVM模型能够有效避免GWO在后期搜索中陷入局部最优,进一步提高了SVM的预测精度.研究结论为缺失数据情况下煤与瓦斯突出预测提供了一种途径.  相似文献   

6.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

7.
分类算法主要存在问题:(1)无法充分利用样本的分布特征;(2)无法保持样本的相对关系不变;(3)无法解决大规模分类问题。对此,提出了一种基于最大散度差的保序分类算法RPCM,该方法利用线性判别分析算法中的类间离散度和类内离散度来表征样本的分布特征,通过保持各类样本中心相对关系不变来实现样本相对关系不变。理论分析表明:RPCM的对偶形式与最小包含球等价。在核心向量机的基础上提出了RPCM-CVM算法,该算法可用来解决大规模分类问题,标准数据集上的比较实验验证了所提方法的有效性。  相似文献   

8.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

9.
多标签分类是一项重要且具有挑战性的任务,对于场景分类、信息检索和网页挖掘等领域有重要意义.近年来,研究者倾向于挖掘并利用标签相关性以及实例相关性来提升多标签分类的性能,其中利用这类相关性来解决多标签分类中的标签缺失问题一直是机器学习领域的热门研究点,但现有的方法都忽略了标签和实例之间的相关性.针对标签完整和标签缺失的情况,基于矩阵分解的方式分解得到实例和标签的特征表示矩阵,在利用标签相关性和实例相关性建立正则约束的同时,首次建立实例和标签特征表示间的相关性并用以建立正则约束,进而提升算法性能.在三个真实数据集上对提出的算法进行性能验证,实验结果表明,该算法和对比算法相比,获得了最高的预测精度.  相似文献   

10.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

11.
传感器节点监测数据缺失会影响核电站外围环境辐射监测的有效性,需要对缺失数据进行准确估计.提出一种基于支持向量机的监测数据缺失值估计算法,对传感器节点缺失监测数据进行估计.用实际监测数据对算法进行了验证,用均方误差和相关系数评价实验结果.并与现有的基于神经网络的估计算法进行了性能比较.实验结果表明,本文所提出的算法具有较高的估计精度.  相似文献   

12.
遥感图像背景复杂,存在光照变化和噪声干扰,导致图像分类准确率不高。针对该问题,在计算邻域像素离散度的基础上,通过对其施加不同权重以细化阈值范围,提出一种改进的自适应阈值局部三值模式(ATLTP)纹理特征提取算法,以提高遥感图像分类精度。首先,对原始遥感图像进行灰度拉伸预处理以增强图像对比度;然后,采用改进自适应阈值局部三值模式提取遥感图像的纹理特征;最后,利用支持向量机对遥感图像进行分类。在标准遥感图像数据集中稀疏建筑物和密集建筑物分类的实验结果表明:采用改进后的局部三值模式纹理特征对遥感图像进行分类的性能要优于传统的局部三值模式,验证了改进算法的有效性。  相似文献   

13.
在直推式支持向量机(transductive support vector machine, TSVM)中,迭代过程中样本标注错误会导致错误传递,影响下一次迭代中样本标注准确度,使得错误不断地被积累,造成最终分类超平面的偏移。在不均衡数据集下,传统支持向量机(support vector machine, SVM)对样本分类的错误率较高,导致TSVM在每次迭代中标注样本准确度不高。针对此,本文提出一种不均衡数据集下的直推式学习算法,该算法依据各类支持向量的密度分布关系动态计算各类的惩罚因子,提高每次迭代中样本标注的准确度,算法在继承渐进赋值和动态调整规则的基础上,减少分类超平面的偏移。最后,在KDD CUP99数据集上的仿真实验结果表明该算法能够提高TSVM在不均衡数据下的分类性能,降低误警率和漏报率。  相似文献   

14.
随机化区组设计中经常会碰到缺失数据,处理此类缺失数据目前有4种方法:删除缺失数据法、均值插补法、公式插补法和Yate’s插补法。4种方法的优劣是值得研究的一个问题,拟用模拟研究的方法对此4种方法进行比较。首先随机产生一个4x5的随机区组设计,令缺失值的个数m=l,…,6;其次对每个n遍历所有缺失值位置可能的组合,在每一个缺失值位置的组合下,分别研究4种方法线性回归的标准误差、可决系数和复可决系数。最后模拟研究的结果证实Yate’s插补方法是这4种方法中表现最好的一个,实例研究的结果也证实了模拟研究的结论。  相似文献   

15.
分析北京地区日降雨量资料,相较于其他降雨事件,大雨或暴雨事件发生的次数较少,因此该地区的降水量预报属于样本不均衡问题。在样本不平衡的情况下,K最近邻(PNN)算法的分类误差率将会大大提高,这也就使传统的基于K最近邻算法的降水量预报方法的应用受到了限制。针对北京地区降水量预报这一样本不均衡问题,应用伪最近邻算法构建了北京市的降水量预报模型。该方法利用北京地区日降雨量资料和美国国家环境预报中心全球格点资料,将降雨量作为类,将美国国家环境预报中心全球格点资料的各种因子场作为天气样本特征,通过决策规则实现最优分类。利用提出的降水预报模型对北京地区2010年6~8月进行了24 h降水预报,实验结果表明,提出的预报方法对于降水等级预报的预报准确率以及晴雨预报的TS评分、正样本概括率和漏报率均优于传统的K最近邻预报方法,该方法具有较好的预报效果。  相似文献   

16.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

17.
针对朴素贝叶斯网络分类模型在处理高维大数据量时的效率偏低和准确率有待提高的问题,结合主元分析法与K-均值聚类算法构造出了一个改进的朴素贝叶斯网络分类模型;摒弃了非类属性变量相对于类属性变量相对独立的前提条件,算法首先用主元分析法在对数据集的信息量尽量保存的同时进行了降维操作,使得算法可以着重于进行分类问题;算法还提出了一个"相对融合点"的概念,有效地提高了算法的性能;最后对算法的性能进行了分析,并将改进的算法应用到实际的数据集进行实验,用算法产生的分类结果对数据集中产生的一些缺失数据进行修补。  相似文献   

18.
谌桢文  常军 《科学技术与工程》2023,23(20):8846-8853
桥梁健康监测系统的实测数据普遍存在缺失问题,为了保证桥梁监测数据的完整性,更好地预测桥梁未来的健康状况,提出了一种具有样本内和样本外预测能力的组合模型。样本外预测可以基于现在数据预测未来的桥梁健康状态,样本内回归用于填补传感器数据中的缺失值,确保桥梁监测数据的完整性。由于不同位置处相同类型传感器的相关性较强,首先利用岭回归(Ridge Regression,RR)解决共线性问题,建立各传感器数据之间的关联,并预测缺失数据。接着引入季节性差分自回归滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA) 方法,利用其样本外预测能力并结合岭回归方法预测桥梁未来运行数据。然后,通过设立预警值实现健康状况预警,以保证桥梁健康运行。最后,将该方法应用于实桥中,验证了其有效性,为传感器数据填补以及预测桥梁未来状态提供了一个有效的预测模型。  相似文献   

19.
基于Shapelet的时间序列分类算法具有可解释性强、准确率高、速度快的优点,然而在Shapelet发现过程中存在Shapelet产生冗余和形式局限的缺点,严重制约了算法性能的提高。针对这一问题,提出一种基于优化Shapelet的时间序列分类算法,该方法首先利用K-means生成典型的Shapelet候选集,加速Shapelet的生成过程;然后,融合相似性和类标差异性提出Shapelet的选取模型,确保Shapelet的多样性和精简性;最后,提出优化策略获取最佳的Shapelet,并以此为基础实施时间序列分类。实验结果表明,该方法具有较高的分类准确率,并对位移和扭曲特征明显的数据集具有良好的分类效果。  相似文献   

20.
针对传统的协同过滤推荐算法中评分矩阵过于稀疏和算法准确度不高的问题,提出一种融合矩阵分解和XGBoost算法的推荐算法(MFXGB,Matrix Factorization XGBoost),其特点是利用SVD++算法(SVD,Singular Value Decomposition)对用户项目评分矩阵进行填充,避免过多的缺失值对算法精确度的影响,再利用XGBoost(eXtreme Gradient Boosting)算法训练有监督的模型用于预测用户评分.为了克服计算成本过高的困难,提出利用K-均值聚类方法进行特征提取用于训练XGBoost模型.将MFXGB算法应用于MovieLens数据集进行实验分析,结果显示,MFXGB算法的推荐精确度比传统的3种方法分别提高了8.91%、10.18%和11.79%,效果明显优于传统的推荐算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号