首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
准噶尔盆地石炭系火山岩岩性复杂,在某种岩性薄片、岩心等资料数量明显少于其他岩性时,常规方法划分岩性存在困难。为了解决上述问题,提高火山岩岩性识别精度,运用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)算法增加少数岩性类别样本数量,解决数据不均衡问题;通过网格搜索和K折交叉验证法确定最优参数组合,开展基于改进随机森林的火山岩岩性识别研究。通过分析火山岩岩心、薄片、测井响应特征等资料,建立了岩性交会图版,确定了研究区对岩性敏感的测井参数重要性程度。实例资料应用表明,改进的随机森林算法有效地解决了传统随机森林算法受岩性样本类型不均衡及数据量较小的影响,火山岩岩性识别准确率由87%提升到了94%,为不均衡样本情况下火山岩岩性识别提供借鉴。  相似文献   

2.
在随钻过程中,如何自动、快速、客观地识别岩屑是录井过程中一个十分重要的问题.针对这个问题,对岩屑颜色进行了深入的分析研究,对不同岩性的岩屑图像提取颜色直方图,将其作为岩屑特征,最后将随机森林法应用到岩屑的识别过程中,取得了较好的识别效果.通过对某气田几口井的现场随钻,结果证明本文算法识别正确率达到90%以上,为快速自动录井提供了一条有效的途径.  相似文献   

3.
比特币作为第一个去中心化的加密货币,由于具有匿名性这一特点,被大量用在各种交易服务中,如博彩、跨境支付等,同时也被恶意交易所利用。目前比特币用户地址分类主要通过启发式聚类方法实现,受到比特币协议的变化影响,该方法对出现的新输出地址、单输入地址以及参与混币交易的地址无法分类,因此仅适用于现有比特币地址中很小一部分。针对该问题,本文提出一种基于改进随机森林的比特币地址分类方法,对区块链原始区块数据进行解析,直接提取用于机器学习的地址特征,进而学习一个随机森林分类器,能对任何一个没有标签的比特币地址进行分类,同时为了降低特征集中的冗余,对传统的随机森林进行改进以获取最终有助于地址分类的重要特征。实验结果表明,该方法可以准确地对比特币用户地址进行分类,仅仅需要14个重要特征。  相似文献   

4.
基于随机森林的航空发动机工作状态识别   总被引:1,自引:0,他引:1       下载免费PDF全文
为解决人工识别航空发动机工作状态中存在的误判和耗时费力等问题,提高识别准确率,提出了一种基于主成分分析(PCA)的特征提取方法和随机森林(RF)的智能识别方法。首先对飞参数据进行预处理,利用PCA将数据降维进行属性约简,并根据发动机工作状态将样本分组,用随机森林方法训练获得分类器;然后将几种分类方法的识别效果进行对比;最后采用该方法对某一架次的发动机工作状态进行识别。结果表明,该方法能够准确快速地识别航空发动机的稳定工作状态,识别准确率达到97.89%。可应用于发动机工作状态的相关研究。  相似文献   

5.
机器学习在近几年得到了迅猛的发展,其中随机森林(Random Forest)在决策树的基础上演变出来的一种机器学习方法,利用其可以进行数据建模,分类,预测等。探索了随机森林算法在数据预测上的应用,基于一个泰坦尼克乘客数据集,预测泰坦尼克号乘客的命运(是否生存)。此数据集包含了将近80%乘客的信息和生存状态,包含1 309个样本,每个样本包含14个属性。实验验证了随机森林算法在受试者工作特征曲线等方面表现较好,具有一定的参考性和可拓展性。  相似文献   

6.
针对网络上机器用户大量散布谣言, 发布虚假信息, 误导网民舆论, 严重影响网络环境的问题, 以微博中的机器用户为研究对象, 结合其自动化程度高、伪装能力强、信息发布有针对性的特点, 从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标, 利用信息熵、内容重复率等8个指标构建微博用户的特征向量, 通过随机森林算法设计微博中机器用户的识别模型。最后, 在真实的新浪微博数据集上进行验证, 结果表明本模型识别机器用户的准确度达到96.7%, 可以有效地区分微博中的机器用户和普通用户。  相似文献   

7.
随机森林分类用于雷达信号预分选新算法研究   总被引:1,自引:0,他引:1  
 现代战争中,雷达电子战环境越来越复杂,随着雷达种类的多样化和雷达脉间调制方式的复杂化,对信号分选的识别难度也愈加增大。本研究采用随机森林算法对脉冲描述字特征进行预分选,可自适应的对特征进行选择,并实现分类。随机森林由于可以自动进行特征选择,可对不平衡的数据进行误差平衡等优点,通过多决策树表决方式,可以迅速完成对大量数据快速训练。在脉冲丢失导致的部分特征损失的情况下,仍可以维持识别准确率。通过实验证明了本方法对雷达脉冲描述字特征进行预分选的有效性。  相似文献   

8.
在源数据不充分或不平衡的情况下,深度学习方法在小样本集上难以取得令人满意的语音情感识别效果。因此,本研究构造了一种三层随机森林情感识别网络,在每一层都单独剥离易于区分的情感类别,并通过重要性评分方法,为每一层网络都构造一个识别特定类别的特征集,该特征集的每一个特征都依据贡献度大小得到赋权,以确保对分类贡献越多的特征因子对结果影响越大。本研究构建的多级情感识别网络,在小样本集语音情感识别的整体识别率上,较单层随机森林网络和支持向量机分别提高了5%和7%,较流行的深度学习方法卷积神经网络提高了12%。实验结果和理论分析表明:基于重要性评分的多级随机森林网络相较于其他方法,在源数据样本量较少和部分不平衡的情况下,有更高的识别准确率,具有语音情感识别方向的实际应用意义。  相似文献   

9.
现有的大多数情感识别算法在进行连续情感识别时稳健性较差,影响了识别的精度。为此,文中提出一种基于随机森林的连续情感识别和跟踪算法,可持续识别出人脸在正常交流过程中的各种情感。在训练阶段,首先重建输入图像的三维脸部模型。并通过图像融合来构建连续情感表示(CEP)和用户无关情感表示(UIEP)。然后,由三维脸部形态、CEP图像及其情感值构成增强型训练集,并利用该训练集来构建随机森林。在情感估计阶段,随机森林同时进行两种回归操作:一种是针对三维脸部表情的跟踪;一种是针对当前情感的识别。当前时间步骤的CEP图像和之前时间步骤的三维脸部形态作为输入,计算当前时间步骤的情感值和三维脸部形态作为输出。当随机森林没有合适的输出时,利用UIEP图像进行复原优化,获得经过复原的三维脸部形态和情感。仿真实验结果表明,所提算法的性能达到要优于当前大多数情感识别算法,实时连续情感识别时的皮尔逊相关系数也较高。  相似文献   

10.
刘炼  王强  陈浩 《科学技术与工程》2022,22(11):4367-4374
针对传统基于机器学习的电力系统暂态稳定评估方法存在准确率偏低和泛化能力不足的问题,提出了一种基于特征选择和改进随机森林的在线暂态稳定评估方法。首先,通过最大化联合互信息挖掘电网运行数据之间的相关性,筛选出具有代表性的关键特征子集;然后,考虑到电力系统数据库中稳定样本与失稳样本之间的类别不平衡问题,通过改进bootstrap抽样和对决策树进行加权处理,增强随机森林对失稳样本的识别能力;最后,基于改进的随机森林算法,建立关键特征数据与暂态稳定标签之间的映射关系。实验结果表明,所提方法具有较高的准确性和较强的鲁棒性,能够满足在线应用的需求。  相似文献   

11.
企业破产数据中存在高维不平衡的特性,会导致模型预测性能降低且预测结果偏向于多数类.为了提高具有破产风险企业的预测准确率,将从特征、数据、模型3个方面综合考虑.首先提出一种Pearson相关系数特征提取规则进行特征选择,再使用已有的平衡化技术进行数据平衡化处理,最后提出了一种基于改变分类阈值的随机森林算法构建企业破产预测模型.在包含10173个公司数据集上的实验结果表明,本文的研究方法具有一定的优越性,对后续进行企业破产预测研究也具有较高的参考价值.  相似文献   

12.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

13.
智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。本文提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用k-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。然后,针对类不平衡问题提出结合过采样方法的混合Bootstrap抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明本文方法有效、合理,具有优异的辨识性能和效率。  相似文献   

14.
针对机载全波形数据,本文提出了一种基于随机森林法的点云分类算法,首先通过全波形分解获得振幅,回波次数,以及回波宽度3个特征,再结合本文中提出的特征提取方法,构建一个多维特征向量并进行特征选择,最后利用随机森林法将激光点云分为植被,地面部分以及建筑物三类.对比支持向量机分类方法,实验证明该方法具有很好的稳定性以及高效性,能够在城市区域取得很好的分类精度.  相似文献   

15.
在肿瘤特征基因选择过程中,传统分类方法会选出大量冗余基因,而大量冗余基因会造成分类精度低和时间复杂度较高等问题,为了解决上述问题,提出一种结合信噪比过滤法与随机森林算法的肿瘤特征基因选择方法.该方法包含两个过程:首先使用信噪比过滤法剔除原始特征空间中的无关和冗余基因,从而获得与分类属性相关性较高的基因,选择出分类能力较强的预选特征子集;其次使用随机森林算法对特征基因子集进行分类,最终获得分类结果.实验结果显示,该算法可以快速有效地选择出肿瘤特征基因,并具有较高的分类精度.  相似文献   

16.
石辉  邓念东  周阳 《科学技术与工程》2021,21(25):10613-10619
为确定一组合适的指标权重,通过提出随机森林(random forest, RF)模型与层次分析法(analytic hierarchy process, AHP)相结合的模型对不同指标进行客观赋权重,以区分不同指标对崩塌易发性的影响。该耦合模型利用RF模型计算出各指标的客观权重,作为层次分析法的初始权重来修正判断矩阵,最终获得各指标的综合权重。以陕西省绥德县为研究对象,通过分析大量文献及进行相关性分析后选取坡向、曲率、坡度、地貌、降雨量、距水系距离、地层岩性、距道路距离及归一化植被指数(normalized vegetation index, NDVI)9个影响因子作为评价指标,结合ArcGIS空间分析功能,采用RF模型、RF-AHP模型进行崩塌易发性评价,评价结果用受试者特征曲线(receiver operate curve, ROC)进行检验。结果表明:影响崩塌的9个评价指标中,距水系距离对其影响最大;崩塌高易发区呈线性分布在水系及道路附近;RF-AHP模型较RF模型的预测精度提高了4.5%。说明RF-AHP模型更适合此研究区的崩塌易发性评价,评价结果可为绥德县防灾减灾工作提供理论指导。  相似文献   

17.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失,并导致精度下降的问题,提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型.该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制,利用随机森林算法对隐藏层状态的优化实现改进,从而解决了降维过程中神经网络丢失数据特征的问题.在...  相似文献   

18.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号