首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能.  相似文献   

2.
提出了一种基于伪F统计量的特征选择算法(FSPF)来对属性特征进行降维,评价输入特征的重要性程度.通过特征重要性累积比率,获取了最具有区分能力的特征组合.利用加权K最近邻、随机森林、人工神经网络、决策树、梯度提升与支持向量机,对真实数据集进行了分类.实验结果表明:经过FSPF特征选择算法进行变量重要性筛选后,可以较为有效地提高目前主流机器学习方法的分类预测性能.  相似文献   

3.
在处理入侵检测中的大规模数据时,冗余和不相关的特征数据长期造成网络数据流量分类问题,这种特征会降低分类效率和精度,并影响系统的实时检测率。该文提出了一种新的基于互信息的特征选择算法(NMIFS),该算法能处理线性和非线性相关的特征数据。在数据预处理的过程中,使用该算法选择出最优特征,然后结合常见的最小二乘支持向量机算法(LSSVM)对数据进行分类。采用入侵检测标准数据集KDD Cup 99对模型进行性能评估,对比其他新型的优化算法,结果表明NMIFS算法更有助于LSSVM算法实现更高的分类精度和效率,降低计算复杂度,同时提高模型的检测率。  相似文献   

4.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

5.
特征选择是高维小样本癌症基因数据分析的首要和关键步骤,但是现有特征选择算法存在特征子集依赖于训练样本且随训练样本不同而变化的问题。为了解决特征选择过程的特征子集不稳定问题,提出一种基于核极限学习机的集成特征选择方法,利用5-折交叉验证划分原始数据,对各训练集继续采用5-折交叉验证进行划分并进行特征选择,以所得5个特征子集之并集作为该训练集的特征子集,构造核极限学习机评价该特征子集的分类性能,以原始数据集5-折交叉验证所得特征子集的平均Jaccard系数评价特征选择算法所选特征子集的稳定性。5个基因数据集的实验测试以及与经典特征选择算法SVM-RFE、LLE Score、ARCO、DRJMIM、Random Forest和mRMR的实验比较表明,本文算法不仅能选择到稳定的特征子集,且所选特征子集具有很好的泛化能力。  相似文献   

6.
从人工免疫网络原理出发,建立MIS分类模型与生物免疫系统的对应关系,提出了一种新的人工免疫网络动态聚类算法,并将算法应用到MIS评价中.实例分析表明,该算法能有效地从大量待评价的MIS指标属性数据中得到MIS分类,以及不同类型的数据特征.另外,该算法还为评价指标的隶属度函数制定提供了有力的理论依据.  相似文献   

7.
高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。  相似文献   

8.
针对现有无监督特征选择算法所选特征分类准确率不高的缺陷,提出两种新的无监督特征选择算法EDPFS(unsupervised Feature Selection algorithm based on Exponential Density Peaks)和RDPFS(unsupervised Feature Selection algorithm based on the Reciprocal Density Peaks).该两算法提出特征密度与特征距离的概念,并以此定义特征代表性与特征区分度,特征代表性越高表明特征越重要,特征区分度越高表明特征冗余度越小,以特征代表性与区分度之积作为特征重要性评价准则,采用基于特征子集的支持向量机分类正确率评价特征子集的分类性能.在8个UCI机器学习数据库数据集和4个图像数据集上测试这两种新算法,以及多类簇特征选择方法、Laplacian分值特征选择方法、无监督判别特征选择方法和扩展的无监督特征选择方法,实验结果表明:以特征代表性与区分度之积定义的特征重要性评价准则是有效的,提出的两种基于该准则的无监督特征选择算法EDPFS和RDPFS选择的特征子集具有很好的分类性能.  相似文献   

9.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

10.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

11.
为解决过滤式和基于演化学习的包裹式两类特征选择算法的缺陷,提出一种新型包裹式特征选择算法LGBFS(LightGBM feature selection).首先引入LightGBM对原始特征构建迭代提升树模型并对特征重要度进行度量;随后结合提出的LR序列前向搜索策略LRSFFS对特征进行选择;最后将所提出算法与9种对比算法在21个标准数据集上进行对比,结果显示LGBFS在21个标准数据集中的16个取得最优分类精度、18个取得最优维度缩减率和最优CPU运行时间.还进行了时间复杂度分析与显著性检验,检验表明LGBFS相较6种对比算法具有显著性差异,也说明LGBFS能够同时兼顾特征子集的计算效率和分类精度.  相似文献   

12.
泛化能力是机器学习关注的基本问题之一.特征加权是特征选择的更一般情况,它能更加细致地区分特征对结果影响的程度,往往能够获得比特征选择更好的或者至少相等的性能,已经成为普遍的提高学习器的泛化能力的方法之一.该文提出一种基于特征加权的神经网络集成方法FWEART,该方法通过自适应遗传算法的优胜劣汰机制为输入属性确定了特征权值,提高了集成中各个体Category ART网络的精度和差异度,从而提高了神经网络集成的泛化能力.在UCI标准数据集上验证了有效性后,FWEART被应用在地震序列类型预报上,取得了较好的预报效果.  相似文献   

13.
电力系统短期负荷预测的多神经网络Boosting集成模型   总被引:4,自引:0,他引:4  
提出了一种改进的多神经网络集成自适应Boosting回归算法.算法中采用相对误差模型代替绝对误差模型,可以更接近于回归预测问题的要求,并在Boosting迭代过程中,在对训练集采样得到新的训练子集的同时,也对校验集采样得到新的校验子集,保证了两者的一致性.进而采用美国加州电力市场的实际数据,建立了由多个神经网络集成的电力系统短期负荷预测模型.预测结果表明,与传统的单网络预测模型相比,Boosting集成预测模型能显著提高模型输出的稳定性,增强网络结构及模型选择的可靠性,获得更高的预测精度.  相似文献   

14.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

15.
集成算法是机器学习领域的研究热点。随机子空间算法是集成算法的一个主要算法。随机子空间生成的特征子集可能含有冗余特征、甚至噪声特征,影响算法的分类精度。为此,本文提出了一种基于互信息的弱随机特征子空间生成算法(WRSMI),有效去除了特征子集中的冗余特征和噪声特征。在UCI数据集上的实验结果表明,WRSMI的分类性能优于随机子空间算法。  相似文献   

16.
针对目前高炉炼铁模型精度不高问题,提出建立高炉生产过程中精确的多目标优化模型.首先对高炉的海量数据进行了数据预处理,其次采用支持向量机、随机森林、梯度提升树、XGBoost、LightGBM、人工神经网络6种机器学习算法对高炉焦比、K值进行了预测,并采用特征工程和超参调优对机器学习预测进行了优化,最后采用新的集成学习方法进行预测.预测结果不仅精准度高而且具有很好的鲁棒性.在机器学习的基础之上,采用NSGA-Ⅱ遗传算法对高炉参数进行了多目标优化分析,得到了Pareto最优解,高炉操作者可以根据该多目标优化结果针对不同的需求选择相应的控制参数.  相似文献   

17.
针对现有的大部分细粒度图像分类算法都忽略了局部定位和局部特征学习是相互关联的问题,提出了一种基于集成迁移学习的细粒度图像分类算法。该算法的分类网络由区域检测分类和多尺度特征组合组成。区域检测分类网络通过类别激活映射(class activation mapping,CAM)方法获得局部区域,以相互强化学习的方式,从定位的局部区域中学习图像的细微特征,组合各局部区域特征作为最终的特征表示进行分类。该细粒度图像分类网络在训练过程中结合提出的集成迁移学习方法,基于迁移学习,通过随机加权平均方法集成局部训练模型,从而获得更好的最终分类模型。使用该算法在数据集CUB-200-2011和Stanford Cars上进行实验,结果表明,与原有大部分算法对比,该算法具有更优的细粒度分类结果。  相似文献   

18.
针对短时交通流具有随机性和不确定性等特征,本文提出一种基于小波分析和集成学习的组合预测模型。首先对原始交通流数据的平均行程时间序列应用Mallat算法进行多尺度小波分解,且对各尺度上分量进行单支重构;然后对于各重构的单支序列分别使用极端梯度提升模型(extreme gradient boosting, XGBoost)进行预测得到多个子模型,同时利用贝叶斯优化算法进行子模型的最佳参数选择;最后把所有子模型的预测值代数求和,得到总体交通流的预测结果。采用美国纽约布鲁克林地区某路段实际交通流数据进行预测,并对预测结果与其他模型进行比较分析。研究结果表明:小波分析和XGBoost组合模型预测效果优于传统线性模型及单一XGBoost模型,从而更好地为交通管理提供指导意见。  相似文献   

19.
为提高旋转机械故障识别精度,将神经网络与集成学习方法进行结合,提出结合扰动方式的集成RBF故障模式识别方法.首先,通过ReliefF算法计算所提取出的转子故障特征数据集各个特征的权重,并且将权重值进行降序排列,从而筛选出权重趋大的系列特征构成低维特征数据集;其次,将较大权重作为无放回轮盘赌法的输入,对权重所对应的低维特征数据集进行特征扰动,产生系列化低维数据子集并将其划分为训练集和测试集;然后,采用Bagging算法中的自助采样法对训练集进行样本扰动,以此形成新的训练集并用于训练对应个数的RBF神经网络,完成差异性子分类器的构建;最终,对各个神经网络的测试数据辨识结果通过相对多数投票法进行结合,得到故障识别结果.实验结果表明,对于转子系统的故障识别,该方法相较于未集成RBF神经网络、集成BP神经网络具有较高的识别精度,并且拥有较好的泛化性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号