首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在建筑能耗预测模型训练中,选定的特征在某些环境下很难保证预测结果的实效性和准确性.如何科学合理地选择适合建筑本身属性的特征子集用于模型学习,在机器学习研究领域中一直备受研究者的青睐.基于解决使用不同的特征集会改变模型的精度性能和学习速度等问题,本文提出一种"探索式"方法用于特征子集选择,并针对它是如何影响模型的性能进行一系列的实验和系统分析,探索一种足够简单且实用,同时又可以在实践中容易获取和准确记录的特征集.基于选取出的3个数据集,利用径向基函数核和多项式函数核对模型进行训练,通过特征选择前后模型性能的数据比较分析发现所采用的方法对模型的预测精度具有一定的提升作用.  相似文献   

2.
机器学习领域中的特征选择算法可简化模型输入,提高可解释性并帮助避免维度灾难及过拟合现象的发生.针对基于封装法进行特征选择时,评价模型通常将搜索出的特征子集直接作为输入,导致算法对特征利用和评估效果受限于评价模型的特征学习能力,限制了对更适特征子集的发现能力等问题,提出一种基于级联森林结构的子集特征预学习封装法.该方法在搜索算法与评价模型之间添加多层级联森林,重构待评价特征子集为高级特征集,降低评价模型模式识别难度,提高对子集性能的评价效果.实验对比了多种搜索算法及评价模型组合,本方法可在保证分类性能的前提下,进一步降低所选特征数量,同时维持了封装法的低耦合性.   相似文献   

3.
火源热释放速率的准确测量对深入理解火灾演变过程至关重要,然而目前被广泛使用的氧耗法所需设备造价昂贵,成本较高。该文提出了一种基于机器学习的综合性框架,用于输入温度数据预测火源热释放速率。基于火灾动力学模拟(FDS)软件模拟ISO 9705房间内不同参数的火灾场景,获取不同位置的温度数据,并建立火灾数据库。分别基于最小绝对收缩和选择(Lasso)、随机森林(RF)两种模型的递归特征消除(RFE)算法进行特征筛选,得到两个不同的低维特征子集,并设置对照组。基于不同的特征子集,分析比较了线性回归(LR)、K最近邻(KNN)和轻量级梯度提升机(LightGBM)3种典型模型对热释放速率的预测性能。结果表明:基于随机森林模型的递归特征消除算法筛选所得的特征子集训练的LightGBM模型预测效果最佳,预测结果的根均方误差(RMSE)和均绝对误差(MAE)分别为23.89 kW和15.49 kW,决定系数为0.991 6。该基于机器学习的综合性框架预测效果优异且实施成本较低,为预测火源热释放速率提供了有效途径。  相似文献   

4.
带隙是钙钛矿型复合氧化物材料重要的特征参数, 对材料的物理化学性质起决定性作用, 如导电性能和光电性能等. 为了寻找适合不同应用领域的钙钛矿型材料, 利用机器学习进行带隙预测是一种重要的研究手段. 构建了一个两阶段异质集成学习模型, 在第一阶段使用多种不同的基础机器学习器(回归模型)进行预测; 在第二阶段把对预测结果影响较大的描述子和基础机器学习器进行集成学习.利用该模型对 210 种钙钛矿型复合氧化物材料的带隙进行预测, 并与多种独立的机器学习算法以及不同集成策略模型的预测性能相对比, 评估了本模型的预测性能. 结果表明, 这种两段式的集成学习模型能够更好地学习到材料数据的内在关系, 并具有较好的预测效果和较强的泛化能力.  相似文献   

5.
带隙是钙钛矿型复合氧化物材料重要的特征参数,对材料的物理化学性质起决定性作用,如导电性能和光电性能等.为了寻找适合不同应用领域的钙钛矿型材料,利用机器学习进行带隙预测是一种重要的研究手段.构建了一个两阶段异质集成学习模型,在第一阶段使用多种不同的基础机器学习器(回归模型)进行预测;在第二阶段把对预测结果影响较大的描述子和基础机器学习器进行集成学习.利用该模型对210种钙钛矿型复合氧化物材料的带隙进行预测,并与多种独立的机器学习算法以及不同集成策略模型的预测性能相对比,评估了本模型的预测性能.结果表明,这种两段式的集成学习模型能够更好地学习到材料数据的内在关系,并具有较好的预测效果和较强的泛化能力.  相似文献   

6.
机器学习中,特征选择可以有效降低数据维度.考虑到流形学习能够保持原始数据的几何结构,l_(2,1)范数能够防止过拟合,提升模型的泛化能力,将二者结合起来可以提高特征选择的效果和效率.结合局部邻域嵌入(LNE)算法和l_(2,1)范数,提出一种新的无监督特征选择方法.其主要思想是:首先利用数据样本和邻域间的距离以及重构系数构造相似矩阵;其次构建低维空间并结合l_(2,1)范数进行稀疏回归;最后计算每个特征的重要性并选出最优特征子集.实验通过与几种典型的特征选择算法做对比,验证了所提算法的有效性.  相似文献   

7.
王场  王小娜 《河南科学》2023,(5):712-720
为利用机器学习方法预测改性沥青黏弹性,分析不同预测模型适用性和预测精度,测试了胶粉(CR)改性沥青、SBS改性沥青和废旧塑料(PE)改性沥青不同温度和频率下的复数模量.选择人工神经网络(ANN)、稳健线性回归(RLR)、线性支持向量回归(LSVR)、决策树回归(DTR)、高斯回归(GPR)和集成回归(ER)6种机器学习方法预测三种改性沥青复数模量.结果表明:预测结果散点图中,ANN和ER模型预测精度最高,DTR模型次之且存在数据聚类.6种预测模型预测结果的相关系数均大于0.9,纳什效率系数均大于0.85.不同预测模型在PE改性沥青中预测精度最高,SBS改性沥青次之.根据三种改性沥青复数模量预测结果的相关系数、相对均方根误差、分散指数、相对误差和纳什效率系数五个统计参数的平均值,6种预测模型预测精度从高到低依次为ER、ANN、DTR、GPR、LSVR和RLR.  相似文献   

8.
为有效识别内含子 miRNA 及其宿主基因共表达模式, 提出了一种基于集成特征选择的识别方法。 首先 使用基于支持度的集成特征选择算法, 获取相关性和稳定性较高的特征子集, 再使用封装式特征选择方法结合 FCBF(Fast Correlation-Based Filter)搜索策略进一步去除冗余特征和弱相关的特征, 获得最优的特征子集。 实验 结果表明, 该方法融合了多个特征选择方法的优点, 能提高学习模型的泛化能力并能有效识别内含子 miRNA 及其宿主基因的共表达模式。  相似文献   

9.
Boosting集成支持向量回归机的滑坡位移预测   总被引:1,自引:0,他引:1  
支持向量回归机(SVR)在实际的学习应用中,由于数据时空的复杂性和算法本身的参数选择,学习模型难以达到预期的效果.针对这个问题,提出了基于Boosting集成的支持向量回归机方法.通过在原始数据集加权采样的基础上,进行多次迭代子SVR机器学习,不断调整样本权值再采样,优化机器学习模型,然后对迭代所得的每级支持向量回归结果按某种组合方法进行集成,得到最终的回归函数形式.应用该方法进行了仿真试验和滑坡变形时序预测研究.结果表明:使用集成的SVR进行回归预测较之单一的SVR具有更高的准确性和更好的泛化性.对Boosting与Bagging 2种不同的集成SVR,进行了比较研究,试验结果表明,2种算法性能相差不大,总体上前者强于后者.  相似文献   

10.
陶瓷涂层具有耐高温、耐腐蚀、耐磨损等特性, 其热膨胀系数和热导率等参数与其性能息息相关. 为解决陶瓷涂层性能实验成本高、测试困难等问题, 提出了陶瓷涂层材料多模态数据表征学习的性能预测方法. 首先利用高斯混合模型虚拟样本生成(Gaussian mixture model virtual sample generation, GMMVSG)算法生成符合真实陶瓷涂层数据分布的样本来扩充数据集; 其次利用卷积神经网络 VGG16 对陶瓷涂层的显微结构图像数据进行特征提取, 利用 TabNet 对结构化数据进行特征提取, 将提取到的图像数据特征与结构化数据特征融合; 最终根据多模态数据表征建立基于K-最近邻(K-nearest neighbor, KNN)、支持向量机回归(support vector regression, SVR)和多层感知机(multi-layer perceptron, MLP) 3 种机器学习算法的预测模型, 对陶瓷涂层的性能指标, 即热膨胀系数和热导率进行了预测. 实验结果表明: 提出的多模态数据表征学习模型的预测结果要优于单模态数据表征学习模型, 其中基于 MLP 算法训练的多模态数据表征学习模型对陶瓷涂层性能的预测效果最好; 在测试集中, 对陶瓷涂层热膨胀系数预测的平均绝对误差(mean absolute error, MAE)和均方误差(mean square error, MSE)分别为 0.026 6 和 0.001 7, 对热导率预测的 MAE 和 MSE 分别为 0.017 9 和 0.000 7. 所提出的陶瓷涂层材料多模态数据表征学习方法有效融合了结构化数据与非结构化数据, 联合学习了各模态数据的潜在共享信息, 成功提升了对陶瓷涂料层材料性能预测的准确度.  相似文献   

11.
点击率预测技术在视频推荐系统中具有重要的作用.视频推荐系统可以根据点击率预测的结果调整投放顺序,从而提高用户的真实点击率.在点击率预测问题中,由于数据存在海量性以及不平衡性等问题,点击率预测的精确度一般都较低.针对以上问题,使用特征工程和机器学习相结合的方法,有效地改进了现有的视频点击率预测算法的性能.首先,使用特征工程方法,从原始数据中提取特征,并使用矩阵分解等方法生成交叉特征;然后,分别基于逻辑回归、因子分解机和梯度提升决策树-逻辑回归实现点击率预测模型.实验结果表明,基于因子分解机模型和基于梯度提升决策树-逻辑回归模型的预测精度要优于基于逻辑回归的模型,并且将用户特征和视频特征进行交叉组合能够改进点击率预测的精度.  相似文献   

12.
提出以乳腺癌数据进行挖掘数据的有效分类方法.针对兰州市某医院乳腺癌数据,通过数据挖掘技术中3种不同的特征提取方法,对乳腺癌数据集的属性进行选择,特征选择后减少的属性代替原来较多的属性,再对其用贝叶斯网络、属性选择分类器、J48、逻辑回归模型、One-R 5种方法进行分类.结果表明,得到的子集再经过分类时所花费时间明显减少,利用贝叶斯网络算法进行分类的准确率和各项性能指标高于其他算法,用逻辑回归模型算法进行特征选择后准确率明显提高.  相似文献   

13.
提出了一种基于伪F统计量的特征选择算法(FSPF)来对属性特征进行降维,评价输入特征的重要性程度.通过特征重要性累积比率,获取了最具有区分能力的特征组合.利用加权K最近邻、随机森林、人工神经网络、决策树、梯度提升与支持向量机,对真实数据集进行了分类.实验结果表明:经过FSPF特征选择算法进行变量重要性筛选后,可以较为有效地提高目前主流机器学习方法的分类预测性能.  相似文献   

14.
为了克服Relief选择前k个特征作为约简子集所存在的原始特征空间中的近邻在约简后的特征子空间中不一定还是近邻的问题,提出了一种在特征子空间中评价候选特征子集类别区分能力的方法,并结合最好优先特征搜索策略提出了一种新的特征子集选取方法.在12个UCI(加州大学欧文分校)数据集和1个老年痴呆实测数据集上,就约减能力对所提方法与其他3种经典特征选择方法进行了比较,并用决策树、逻辑回归模型详细比较了分类效果.实验结果表明:所提方法不仅能够选出特征数目较少的特征子集,而且特征子集的分类效果良好.  相似文献   

15.
特征选择是机器学习和数据挖掘中的一个关键问题,它可以实现数据维度的约减,从而提高学习模型的泛化能力.近年来,为了提高特征选择算法的性能,集成思想被应用到特征选择算法中,即将多个基特征选择器进行集成.本文从提高特征选择算法对大规模数据处理能力的角度出发,提出了一种基于最小最大策略的集成特征选择方法.它主要包括三个步骤:第一,将原始数据根据类别信息划分成多个相对较小的平衡数据子集;第二,在每一个数据子集上进行特征选择,得到多个特征选择结果;第三,对多个特征选择结果依据最小—最大策略进行集成,得出最终的特征选择结果.通过实验对比了该集成策略与其它三种集成策略对分类准确率的影响,结果表明最小最大集成策略在大部分情况下能够获得较好的性能,且基于最小最大策略的集成特征选择可以有效处理大规模数据.  相似文献   

16.
特征选择作为一种常见的降维方法,一直以来都是机器学习和数据挖掘领域的热点话题.针对传统特征选择算法没有充分考虑特征全局冗余性,导致选择的特征子集对分类识别精度不够高的问题,提出基于复杂网络节点重要度评估和遗传算法的特征选择算法,将每个特征视为网络节点,根据互信息建立边,将特征选择问题转化为节点重要度评估问题,利用遗传算法选择最优特征子集.实验结果表明此算法能够找到较为优秀的特征子集,有效降维并提高分类精度.  相似文献   

17.
针对电商销量数据的复杂性和现有预测模型的稳定性及泛化能力不足问题,本研究基于大样本多变量数据,应用随机森林和渐进梯度回归树等机器学习模型进行分析。研究结果表明,相比于广义线性回归、弹性网络、支持向量回归、KNN回归树、决策树、多层感知机、AdaBoost,随机森林和渐进梯度回归树对电商销售数据预测拟合更加精确。相比于广义线性回归、弹性网络等7种传统机器学习算法,随机森林和渐进梯度回归树这两种集成学习的方法对电商销量预测更加精确,且渐进梯度回归树算法拟合效果更好、均方根误差更小,是一种更加有效的电商销量预测方法。  相似文献   

18.
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森林作为基学习器建立集成学习预测模型,导入训练子集并训练各个随机森林.之后,依据各个随机森林在验证集上的预测性能,采用贝叶斯模型组合算法制定组合策略.个体随机森林在测试集上的预测值经过模型组合策略得到最终输出.最后,基于气象实测数据建立仿真实验,并引入其他四种预测方法进行对比仿真研究,通过实验结果验证了文中所提出预测方法在太阳能辐照度预测问题中的准确性和可靠性.  相似文献   

19.
随着大数据、人工智能以及高性能计算的快速发展, 数据驱动的新材料研发成为研究热点. 在对材料数据进行数据挖掘的过程中, 需要对特征集合进行预处理, 通过减少无关冗余特征, 不仅可以避免模型过拟合, 还能提高模型的可解释性. 基于此, 提出了一种基于强化学习的特征选择(feature selection based on reinforcement learning, FSRL) 算法, 将封装式特征选择抽象成机器学习模型和"环境"互动的过程, 并根据利益最大化准则将对应特征加入特征子集中. 同时, 为了提高模型的预测精度, 还提出一种基于符号变换的特征构造方法来生成新的特征. 最后, 将所提出方法应用到非晶合金材料的分类预测任务和铝基复合材料的回归任务中. 实验结果表明, FSRL 算法的分类准确率最高提升了 2.8%, 而在回归任务中, 基于特征构造的 FSRL 算法使得预测精度最高提升了 22.9%.  相似文献   

20.
在机器学习中,特征选择是降低高维问题复杂性的有效方式之一。大多数特征选择算法是通过设计重要特征度量方法来提出备选特征序列,再根据序列选择特征子集。在此基础上,产生了划分特征子集作为独立空间学习的特征选择方法。然而,现有的空间划分机制多是人为切割原始特征空间得到的,鲜有人考虑因度量结果差异性导致的特征层次化现象,并以此划分空间。基于此,本文利用模糊互信息和有向无环图设计了一个分层模型,并提出了基于信息适应性分层粒化的多标签特征选择算法。同时,将获取的特征子集在标准多标签数据集上与多个先进算法进行对比实验,结果证明了本文算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号