共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
为了有效处理企业越来越多的业务数据,为企业业务提升和用户价值挖掘提供积极帮助,将机器学习方法应用于某运营商客户业务数据处理过程。首先对原始数据进行预处理,去除重复值、缺失值、异常值,并进行标准化处理,然后对不平衡数据采用合成少数类过采样(synthetic minority over-sampling technique, SMOTE)技术进行过采样,减少了预测的偏差。对处理后数据分别建立传统神经网络模型、优化神经网络模型和随机森林模型,并通过结构调优和参数调优等进行模型优化,对运营商客户进行预测与分析。结果表明,优化后的模型预测准确率可达96%,有良好的客户预测与分析效果,可见优化模型的有效性。最后为运营商挽留流失客户、维系非流失客户提供了解决方案,为运营商实施精准营销、节省运营商营销成本和创造更多利润提供了技术支持。 相似文献
3.
以中国西北5个省会城市为研究区域,利用2015年1月1日-2020年7月21日空气质量监测资料与气象数据构建基于多元逐步回归(MSR)、随机森林(RF)与支持向量机(SVM)的空气污染预报模型,以平均绝对误差、均方根误差及拟合度指数IA为评判指标,对模型的模拟精度进行对比分析.结果表明,针对5个城市构建空气污染预报模型时, RF重要性评估法比Spearman相关系数法更适用于筛选预报因子. MSR、 RF与SVM模型的预报性能由强至弱依次为MSR>RF>SVM. 3种模型预报结果均IA>0.8,预报值与实际观测值之间的相关程度较高. 相似文献
4.
为有效进行城市空气质量预测、推进城市空气污染防治,弥补传统统计学模型在大数据时代背景下对城市空气质量预测准确率低、容错能力差等问题,提出利用随机森林回归构建城市空气质量预测模型;综合考量污染物浓度、气象参数、时间参数等多方面影响因素,通过网格搜索法调整参数的最优组合,构建基于随机森林回归算法的城市空气质量预测模型;基于重庆市2017-01-01—2020-07-31的指标数据,对重庆市空气质量进行预测分析,结果表明:在模型下训练集与测试集的确定性系数R~2均在99%以上,均方误差D_(MSE)和平均绝对误差D_(MAE)在训练集和测试集上的取值均在可接受范围内,证实模型具有运行速度快、预测误差小、具有较高的预测精度等优点,具备较好的学习能力与泛化能力。 相似文献
5.
地震破坏预测研究对于建筑结构减灾规划、震前风险预测、震后应急评估有着重要意义。传统的方法因为受到震害资料数量的限制以及计算精度和能力的制约,一般基于经验只考虑少数因素对结构破坏的影响。通过使用随机森林算法,设计了一个综合考虑地震动、结构和场地等多维度信息的分类方法,用以预测建筑物的地震破坏程度。本文研究框架基于新西兰国家地震委员会所收集的27次地震详细破坏资料,处理得到14.2万条高质量建筑物损失数据,考虑了谱加速度、建筑形状、层数等16个影响因素,将4种不同的损伤状态作为模型的学习标签进行地震破坏预测训练。结果表明,随机森林算法在6种分类算法中性能最佳,经过学习曲线法调参、代价敏感学习之后,经过优化得到的随机森林模型对于测试集的整体预测精确率可以达到75.4%,对4种损伤标签的召回率分别达到了88.2%、55.0%、60.7%和70.8%,远好于其他方法。当只考虑对结果影响最重要的前12个因素,该模型的预测精度仍然能够达到73.7%。可见,基于此框架所训练的预测模型具有良好的精度与适用性,同时该框架对于中国震害资料大数据库的研究具有较高的参考价值。 相似文献
6.
7.
2019年底爆发的新冠肺炎疫情(COVID-19)在世界大部分国家和地区蔓延,促使各国政府出台了不同程度的管控措施.不同于各种针对疫情变化的预测模型,该文通过使用经典SEIR仓室模型对COVID-19在中国山东省、韩国两地的传播动力学特征开展了回溯分析,对比并讨论了这两个样本在暴露人群数量、感染人数、确诊人数及治愈率上的显著差异.在此基础上,该文通过对比中国山东省、韩国的首例防控措施公告,重点探讨了在疫情早期采取严格、快速的物理疏离和保持高效的医疗救治对阻断COVID-19传播的积极意义. 相似文献
8.
空气质量状况直接影响着人们的身心健康,空气污染治理一直是一个广受争论的热点问题.本文基于2015~2020年江西省各地级市主要污染物浓度和气象数据,采用时间序列与随机森林模型,深入分析江西省各地级市的空气质量状况及其影响因素,得到以下结果:(1)从整体角度来看,2015~2020年间江西省城市的空气质量一直处于优良状态... 相似文献
9.
为了解决基于测井数据对油气水层的实时识别这一技术难题,利用计算机科学与现代数学,结合随钻测井技术与机器学习算法进行油气水层的随钻识别。首先,对训练集数据进行相关性分析,剔除弱相关或冗余数据;其次,选择一对多支持向量机、一对一支持向量机以及随机森林算法分别建立油气水层分类识别模型,并使用网格搜索方法及10折交叉验证法对3种分类识别模型参数进行优选;最后,运用参数优选后的各分类识别模型,对随钻测井数据进行油气水层的识别。研究结果表明,3种分类识别模型对研究区块油气水层随钻识别的准确率均达到75%以上。在训练样本较少的情况下,优先选用一对一支持向量机分类识别模型进行油气水层的随钻识别。 相似文献
10.
生存或寄生于野外的各种病原体通过进化、基因变异或生态适宜性改变,可能具有潜在的感染人类的风险。因此,开展人类与重要寄主动物的时空交错风险分析,对不明疫病感染的溯源追踪、野外环境健康管理与预警具有重要意义。蝙蝠类动物携带着多种危险病原,本文以其为目标寄主构建随机森林模型,预测蝙蝠适生分布区,并融合与蝙蝠、人类活动有关的空间变量,建立人与蝙蝠空间交错的风险评估模型,制作风险分布地图;为方便行政管理,还进行以乡镇级为管理单元的风险分析。结果表明:1)影响蝙蝠适生的主导变量有年均降水量、温度全年波动范围、昼夜温差月均值、温度季节性变化、降水量季节性变化和最冷季度均温。2)随机森林预测蝙蝠高适生分布区面积为9.796 5×104 km2,占云南省总面积的24.86%,主要分布在云南省南部、西南部和中东部地区。3)疫病传染风险评估发现45个乡镇属疫病传染高风险区,面积约0.534 6×104 km2,受影响人口约287万,主要分布在云南省南部、西南部和中东部地区。 相似文献
11.
基于机器学习的地下水水质预测研究 总被引:1,自引:0,他引:1
基于实测的地下水水质数据(pH、总硬度、溶解性总固体、硫酸盐、氯化物、Fe、Mn 7种)和气象数据(平均气温、最低气温、最高气温、平均最低气温、平均最高气温、20:00—20:00降水量、日降水量≥0.1 mm的时间、最大日降水量8种),分别使用BP神经网络、随机森林(RF)和支持向量机(SVM)构建了地下水水质参数的机器学习预测模型.对于每一种水质参数,分别使用不同的机器学习算法基于不同滞后期的数据进行模拟,将结果与实测水质进行对比,选择精度最高的机器学习模型及其对应的滞后期作为该水质参数的最优模型和最佳滞后期.结果表明,不同机器学习方法和滞后期的选择对预测精度影响很大,BP神经网络对pH(R2=0.225,RMSE为2.411)、总硬度(R2=0.503,RMSE为47.973 mg·L?1)、氯化物(R2=0.994,RMSE为0.544 mg·L?1)和Fe(R2=0.302,RMSE为7.772 mg·L?1)的预测精度最高,RF对硫酸盐(R2=0.908,RMSE为3.788 mg·L?1)和Mn(R2=0.522,RMSE为0.429 mg·L?1)的预测精度最高,BP神经网络、RF和SVM对溶解性总固体的预测性能均较好(R2=0.994~0.996,RMSE为674.660~950.470 mg·L?1).此外,硫酸盐和Mn预测模型对应的最佳滞后期为0个月,溶解性总固体和氯化物预测模型对应的最佳滞后期为1个月,pH、总硬度和Fe预测模型对应的最佳滞后期为2个月. 相似文献
12.
新冠肺炎疫情迅速在全国蔓延,众多企业发展受到了较大影响,其中以中小型企业居多的高新技术企业也面临着巨大挑战,受开工延迟、成本负担加重、市场需求缩减等因素影响,生产经营压力加大。新冠肺炎疫情对甘肃省高新技术企业的影响到底有多大?政府需要提供什么措施?本调查基于上述问题,以甘肃省高新技术企业为研究样本,开展高新技术企业受疫情影响程度调查,从损失评估、可维持时间、行业影响程度、困难类型、自身对策及政策诉求等方面架构分析,了解疫情对甘肃省高新技术企业的发展经营、研发投入等情况的影响,提出针对性的建议。 相似文献
13.
14.
15.
医疗卫生设施是改善民生、保障人民健康的重要基础设施。基于2018年的医疗卫生设施统计数据,以人均医疗卫生设施数量、人均医疗卫生机构床位数、人均医护人员配置标准等指标作为比较对象,分析了中国医疗卫生设施的地域分布、城乡二元差异、公办与民办医疗卫生设施差异,并与其他多个国家的相关指标进行比较。结合武汉各医院在抗击新冠肺炎疫情中遇到的现实问题,提出加强南部省份医疗卫生设施建设,加大对基层医疗卫生设施和医护人员的投入,积极引导民营医疗卫生机构参与突发公共卫生事件的治理,在医院规划中为突发公共卫生事件预留应急场地等建议。 相似文献
16.
为了解当前疫情下中国公众的情绪状况和社会心态,对2020年2月18-20日、2月21-22日的两项线上公众调查数据进行分析,结果表明:近1/3的调查对象存在一定程度的抑郁症状,22.4%存在明显的焦虑症状;与2008年的全国调查相比,当前民众的抑郁水平更高;在各类职业群体中,失业人群的焦虑和抑郁问题突出,私营企业、个体经营和创业者的心理健康状况偏低;社会心态方面,公众处于不同的心理阶段,部分存在抑郁、愤怒倾向;在压力下公众有更强的利他倾向,特别是对医务工作者有更强的支持意愿。调查结果显示,当前的心理健康工作十分必要,疫情当下需继续加强公众心理健康科普宣传和心理疏导,逐步着手预防和应对疫情后的心理健康问题,并在未来加强社会心理服务体系建设、提高公众心理健康素养。 相似文献
17.
针对粉煤灰活性快速分类问题,基于随机森林融合数据集分析、参数调整等方法,建立粉煤灰(CFA)活性智能分类模型。利用准确率、召回率、精确率和ROC曲线下面积SAUC这4种评估指标对模型进行评估。此外,使用特征重要性、部分依赖图(PDP)和机器学习解释(SHAP)模型3种方法来衡量特征物质的贡献。研究结果表明:模型的准确率为85.45%,召回率为97.56%,精确率为84.29%,SAUC为0.92。K2O、Fe2O3、Na2O和Al2O3对SHAP模型影响较大。随着K2O、Na2O等特征物质占比增加,粉煤灰呈现高活性的概率增加;而随着Al2O3等特征物质占比增加,粉煤灰呈现高活性的概率降低。所建立的模型可快速划分粉煤灰活性并判断其是否具有作为辅助胶凝材料的潜力。 相似文献
18.
在线上购物商品销售预测问题上,由于受商品自身的款式、材料、买家的好评与差评以及商家好评返利等多种因素影响,一般的回归预测算法往往不能支持多种特征变量,导致预测准确率较低、鲁棒性差.本文采用一种主题-随机森林算法对口罩销售量进行多变量综合投票预测,并与多重线性回归(Multiple Linear Regression,MLR)算法和随机森林(Random Forest,RF)算法相比较得出最终结论 .实验结果表明,LDA-RF算法各项指标均优于MLR和RF算法,LDA-RF算法建模速度快,鲁棒性较强,受到离群点影响比较小,散点主要集中在线性回归附近,可以有效地提高口罩销量预测精度. 相似文献
19.
随着计算机科学的发展,世界对计算机的依赖越来越强,计算机安全也越来越重要,恶意代码是计算机安全面临的最大敌人.针对传统的恶意代码检测和分析技术在现在已经无法满足需求的问题,提出使用机器学习并应用新的分类特征来识别恶意程序,并且对他们进行初级的家族分类,指出以往机器学习在恶意代码检测和分类上的不足,筛选出更好的区分特征.首先使用了n-gram算法来优化恶意代码反汇编代码中的操作码特征,然后使用词袋模型和TF-IDF算法优化API调用特征,最后编程实现模型并使用数据集进行了模型的训练和测试.实验中使用决策树算法的模型的分类准确率上达到了87.41%,使用随机森林算法的模型的分类准确率上达到了90.06%,实验结果表明提出的特征相比以往在恶意代码检测分类上应用的特征有着更好的效果. 相似文献
20.
新冠肺炎疫情背景下,凸显了数字平台对区域韧性的强化作用.该文通过对比中国与新加坡的数字平台,揭示了疫情期间数字平台在信息传播与处理、资源集成和创新上的优势,其作用贯穿于基础设施、制度、经济和社会韧性之中.研究发现,中国数字平台在抗疫中表现出应用广泛、响应迅速、创新活力强、大平台和大工程引领等特点,而新加坡则体现了公共服... 相似文献