首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

2.
聚丙烯复合材料老化实验周期长,且单次实验采集的数据样本少,使用传统机器学习方法进行预测的准确度较低.为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题,提出了一种虚拟样本生成(virtual sample generation,VSG)的集成学习预测方法.首先,对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model,GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本;然后,使用生成后的数据集建立集成学习预测模型,该模型包含随机森林(random forest,RF)、极端梯度提升(extreme gradient boosting,XGBoost)算法、轻量级梯度提升机(light gradient boosting machine,LightGBM)算法以及分类梯度提升(categorical boosting,CatBoost)算法.实验表明:集成学习模型的LightGBM算法与CatBoost算法性能最优,在测试数据上均方误差为0.001 3与0.0001,比RF算法与XGBoost算法分别高出0.4与0.2.聚丙烯复合材料老化虚拟样本生成与集成...  相似文献   

3.
为快速对数据进行特征选择以实现精确分类,采用M-distance算法思想进行数据集簇聚类,对样本数据进行预处理;设计加权K近邻算法缩减样本间距并构建样本分类模型;采用模拟简谐振动的方法遍历样本数据,求解最优加权特征向量,实现样本分类.实验结果表明:设计的算法是正确的,分类模型是合理的.在样本数据特征中,分离出的消费者最为关心的前10个样本特征符合消费者的行为选择,说明算法设计有一定实用性.  相似文献   

4.
对抗训练存在计算效率低的缺点,对此提出一种虚拟对抗学习的方法。在CIFAR-10和ImageNet(30)数据集上验证本方法,首先,建立阈值机制来挑选对抗源样本;然后,在对抗源样本的logits上添加扰动生成虚拟对抗样本,而非对抗源样本保持不变;最后,计算虚拟对抗样本和非对抗源样本的损失,通过反向传播更新网络权重。试验结果表明,与传统的对抗训练相比,本文方法在干净样本的测试精度上提升了大约7~14百分点,在扰动样本的测试精度上不亚于投影梯度下降(projected gradient descent, PGD)对抗训练的效果,尤其是在ImageNet(30)数据集上提升了4.62百分点。在训练效率上,与最慢的PGD对抗训练相比,本文方法的训练时间缩短了2/3左右。这些结果均证明了虚拟对抗学习既能提升对干净样本的预测精度,又能提高模型的鲁棒性;同时加快对抗训练过程,为对抗训练在工业环境的运用提供有效方法。  相似文献   

5.
为了对小样本疲劳试验做出指导以及寻求小样本下S-N曲线最优拟合方法,对经典样本信息聚集方法进行了改进。基于不同应力水平下试样疲劳寿命概率分位点的一致性,采用数据共享与融合方法,实现不同应力水平下样本数据信息聚集应用。根据应力■疲劳寿命的线性关系,利用改进后的样本信息聚集方法,对小样本数据中各个应力水平下的疲劳寿命均值进行参数化逐步搜索,得到不同应力水平下疲劳寿命最优值,然后根据最小二乘法拟合出S-N曲线。对不同应力水平作为基准进行了S-N曲线的疲劳特性对比分析,算例结果表明,以低应力水平为基准结合改进后的方法拟合出的曲线与传统成组法拟合结果最大相对误差不到5%,预测出的疲劳寿命误差范围最小。由此可见,改进后的方法提高了小样本疲劳特性分析的可靠性。  相似文献   

6.
风机齿轮箱是风力涡轮传动系统中的关键部分,其故障发生随机、故障样本数量不足,严重影响故障诊断的准确性。针对此问题,提出一种基于循环卷积生成对抗网络的风机齿轮箱故障诊断方法。首先,构建基于循环卷积生成对抗网络的样本生成模型,利用卷积网络和循环网络作为生成器增强样本间的时间相关性;借助Wasserstein距离与梯度惩罚项改进目标函数,并通过博弈对抗机制优化生成器和判别器,提高模型的泛化能力。然后,结合真实样本和生成样本,设计基于堆叠去噪自编码器的故障诊断方法,实现齿轮箱的故障诊断。最后,利用风力涡轮传动系统数据集验证所提出的风机齿轮箱故障诊断方法的性能。结果显示,所提方法能够有效平衡故障样本数据集,进一步提高风机齿轮箱故障诊断的准确率。  相似文献   

7.
在不平衡数据的应用中,少量的负样本(异常数据)往往是检测准确率低的重要原因,如在主机异常检测领域中,异常样本过少使得检测效果不佳.为解决这一问题,该文改进了深度卷积生成对抗网络,使其更易于收敛和生成样本.再通过将改进的深度卷积生成对抗网络用于入侵检测评测数据集ADFA-LD异常样本的训练,构造出更多的异常样本.最后,为验证生成样本的效果,以多种异常检测方法检测对上述增加样本后的平衡数据进行实验,实验结果发现新增加的异常样本能被全部检测出,而且已测出的异常样本无漏检,实现了高检测率和低误报率.对比实验表明该文提出的小样本数据生成方法能有效解决某些数据不平衡的应用问题.  相似文献   

8.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

9.
提出一种基于支持向量机(SVM)的钢筋砼(RC)框架结构快速地震易损性分析方法.以6层框架结构为例,选取柱尺寸、柱配筋率、混凝土标号、层高、横向跨度和梁高跨度比6个结构微观特征,对不同特征取值的5.67×10~4个结构进行Pushover分析,并应用能力谱法评估抗震性能,建立震害样本库;从样本库中选取训练集,引入机器学习SVM算法,建立结构微观特征与抗震性能之间的映射关系,进而可对给定特征取值的目标结构进行易损性预测.用样本库中的非训练集结构验证方法的准确性,结果表明:该方法具有较好的易损性预测准确率和稳定性,预测性能与训练集的样本数量及其有效性相关.  相似文献   

10.
小样本机器学习理论:统计学习理论   总被引:12,自引:0,他引:12  
统计学习理论是由Vapnik等人提出的一种有限样本统计理论,是模式识别邻域新近发展的一种新理论,着重研究在小样本情况下的统计规律及学习方法性质,它为小样本机器学习问题建立了一个较好的理论框架,也发展了一种的通用学习算法--支持向量机,较好地解决了小样本机器学习问题。该文旨在介绍统计学习理论的基本思想、特点、研究现状和一些思考。  相似文献   

11.
基于均矢量相似性的机器学习样本集划分   总被引:1,自引:0,他引:1  
提出一种基于均矢量相似性的机器学习样本集分割方法(MSSS),根据样本集中每个样本矢量与均矢量之间的余弦相似性,将样本划分成训练集和测试集.为评价MSSS方法性能,分别用随机分割法(RSS)和MSSS方法,按不同比例划分来自UCI的4个数据集,对产生的训练集一测试集进行Hotelling T~2检验;另外,采用得到的训练集对分类BP神经网络进行训练,以相应的测试集测试神经网络.研究结果表明:对用RSS划分4个数据集产生的训练集一测试集进行Hotelling T~2检验,发现均存在F值超出界值的现象,而MSSS均未出现;使用MSSS训练的神经网络所产生的训练-测试误差差异、准确率差异均比使用RSS训练的神经网络所产生的小,说明用MSSS划分产生的训练集与测试集的一致性比用RSS划分产生的好.  相似文献   

12.
针对小样本数据样本容量不足与分布不平衡的设备寿命预测问题,构建基于改进SMOTE算法与改进KNN(K-NearestNeighbor)算法联合优化模型。首先,设置噪声比例系数β排除样本数据中的噪声,随后通过类B-SMOTE(Borderline-SMOTE)算法与传统SOMTE算法结合构建改进SMOTE(ISMOTE)算法对存在分布问题的少数类样本进行新增优化,避免因为样本分布不平衡以及样本数量较少引起的偏差。其次,针对分类过程中边界模糊的样本点,通过利用粒子群算法寻求每个样本种类中心点并计算样本距离均值建立分隔阈值■,对阈值范围内的样本点利用“投票法”判断样本种类,规避KNN算法在处理数据时因为不同种类样本混合而出现误差的问题。最后,通过利用美国卡特彼勒公司液压泵状态数据以及凌津滩水电站水导轴承振动数据进行仿真,算例证明上述两种改进算法在面对小样本不平衡设备数据时可以准确分析设备运行状态以及预测设备未来健康发展趋势。  相似文献   

13.
基于粗糙集的支持向量回归机混合算法   总被引:1,自引:0,他引:1  
利用粗糙集(RS)对不精确数据的处理能力,生成分类数据的边界集,替代原始样本作为训练集,减少训练集与获取的支持向量的数量,然后使用支持向量机的最小序列优化(SMO)算法改进回归学习机的性能.将粗糙集与SMO回归算法结合提出一种混合函数回归算法RS-SMO-RA.在常用SMO回归算法SMO-RA基础上,扩增一段简短的生成边界样本的算法程序.仿真结果表明,算法RS-SMO-RA的效率更高,且能够改进学习结果的性能.  相似文献   

14.
用不同的L9(34)正交实验方案结果作为训练学习样本集,对BP神经网络预测应用过程的策略进行了探讨,结果表明:完备的正交实验样本集是基本训练学习单元,在完备的正交实验样本集上添加或减少样本数量,所预测的结果是不可靠的;在同一类型、同一实验的条件下,完备的信息量大的正交实验样本集,能以很高的精度预测完备的信息量小的正交实验样本集;提出了一条新的实验设计思路——通过实验得出一个完备的正交实验样本集,通过计算机用BP神经网络就可以把与已知样本集有相同影响因素和水平的所有样本的值以相当高的精度预测出来,从而大大节省时间和劳力。  相似文献   

15.
包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE-GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度.  相似文献   

16.
针对锂电池荷电状态(SOC)估算面临的大型数据集获取困难和训练速度慢的问题,结合深度学习和迁移学习提出一种小样本锂电池荷电状态估算方法。基于卷积-长短期记忆网络(CNN-LSTM)构建深度神经网络结构。在源域上采用K折交叉验证对NASA数据集进行划分,选取SOC估计性能最优的网络,利用目标域内具有多种工况和温度条件的Panasonic小样本数据进行迁移学习。为了提升方法的整体性能,分析了网络超参数对SOC估计结果的影响。实验结果表明:在相同的迭代次数下,该方法在不同的工况下可以较准确地实现小样本电池SOC估计,相较于非小样本迁移学习处理方法的均方根误差降低了47.29%。  相似文献   

17.
基于支持向量机的小样本数据概率分布模式自动识别   总被引:1,自引:1,他引:0  
在装备可靠性工程领域,小样本数据概率分布模式识别是亟需解决的一个难题.统计学习理论是专门研究小样本情况下机器学习规律的理论,支持向量机是当前最新的、基于统计学习理论的机器学习算法.根据现代统计学原理提取了数据分布特征参数,采用支持向量机分类算法构建了小样本数据概率分布模式自动识别模型.测试结果表明,模型对小样本数据概率分布模式具有较强的识别能力.  相似文献   

18.
现有的小样本语义分割模型通常只提取单一级别的语义特征,然而由于小样本数据的样本量少、各级语义特征具有不同属性等原因,提取单一级别语义特征的网络模型很难在保证分割能力的同时兼具泛化性.针对该问题,提出了一种集间两级语义互补的小样本语义分割方法 .该方法使用具有强类别特征的支持集高级语义特征对具备泛化性的查询集中级语义特征加权,在增强查询集各目标类别特征的同时保留查询集中级语义特征的泛化能力;另外,该模型通过最大化支持集潜在语义信息、为查询集构建非参数学习的先验信息等方式增强两集信息之间的交互性以获得更丰富的判别信息.该方法在PASCAL-5i数据集上进行仿真实验,mIoU值在1-shot和5-shot两类设置上分别能达到45.3%和48.8%,其结果超越部分先进主流的小样本语义分割算法,且网络模型的参数量也控制在可以接受的范围之内.  相似文献   

19.
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC (Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路.  相似文献   

20.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号