共查询到20条相似文献,搜索用时 312 毫秒
1.
2.
集成学习主要分为串行和并行学习方法.并行学习的优势在于分类器的并行学习和融合,对分类问题通常采用的融合策略为投票法或堆叠学习法,它们的代表分别为随机森林和堆叠泛化Stacking.为了进一步提高Stacking的分类性能,在经典Stacking算法原理的基础上,提出基于随机森林的多阶段集成学习方法,以随机森林作为基层的基学习算法,以投票法和学习法同时作为融合方法,来降低泛化误差.在UCI数据集上的实验结果表明,提出的模型在Accuracy和1F指标上,相比Bagging,随机森林和Stacking等分类器在分类性能上有很大的提升. 相似文献
3.
在数据量很大时,原有的数据分类方法变得失效。因此提出一种新的基于抽样的数据分类算法PSS,并提出三种PSS并行化算法AS,HS和VS算法。在相同的数据量下,PSS算法比传统的sPRINT算法具有更好的性能。实验结果表明,PSS算法及其并行化算法是一种高效的数据分类算法,尤其适用于解决海量数据库中的数据分类问题。 相似文献
4.
为了解决网络伪舆情事件分类过于主观以及分类标准模糊的问题该文基于网络大数据建立一个全新的伪舆情识别指标体系,在此基础上,收集过去一年中网络伪舆情事件的相关指标数据,基于Python软件利用经典的K均值聚类算法对网络伪舆情事件进行聚类分析,得到三个类别的网络伪舆情事件集,分析总结各类伪舆情事件本身的特点该文为网络伪舆情的识别与分类提供了一种全新的方法,为相关部门利用网络大数据准确控制各类伪舆情提供参考 相似文献
5.
针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法。该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选。为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续亏损法、随机森林算法、BP神经网络算法、XGBoost算法进行比较。每个模型均训练50次,每次训练按一定比例随机选取数据,最终取各个指标的平均值作为最终实验结果。实验结果表明:所提出的决策树-逻辑回归模型对于僵尸企业的识别准确率最高,达到99.98%;并且模型的运行速度相对各种集成模型的速度有较大优势,平均执行时间约为1.5 s。在各实验环境中,实验结果差异较小,验证了该模型的有效性和稳定性。 相似文献
6.
7.
赵伟 《湘潭大学自然科学学报》2018,(1):107-110
为了对运动员训练过程中的运动进行自动分类,以可穿戴式惯性传感器采集的信息为基础,提出了一种基于离散小波变换(DWT)和随机森林分类器的分类方法 .首先,通过佩戴于身体特定部位的微型加速度计和陀螺仪,采集速度和角度信息,从而估计出运动员的膝关节和髋关节的运动角度.然后,通过DWT从关节角度信息中提取特征.接着,利用提取的特征集来训练随机森林分类器,以此实现运动的自动分类.实验结果表明,该方法能够有效分类出多类运动,具有较高的分类精度. 相似文献
8.
研究脂肪肝预测模型,旨为脂肪肝易发人群健康管理及风险评估提供参考。选取2006—2016年在西部战区总医院健康体检中心定期健康体检人群作为研究对象(体检中心为该人群建有专门软件用于管理体检数据资料),将随机森林算法筛选脂肪肝危险因素的效果与Logistic回归模型、人工神经网络、单棵决策树分类模型相比较。4种方法筛选脂肪肝影响因素准确率分别为88.0%、83.3%、83.9%、86.0%,随机森林筛选脂肪肝危险因素的准确率高于Logistic回归模型、人工神经网络和单棵决策树分类模型。基于随机森林算法与合成分析法建立脂肪肝合成预测模型,并评价其预测效能。研究结果表明,Logistic回归预测模型、Cox比例风险模型和脂肪肝合成预测模型的ROC曲线下面积分别为0.732、0.681、0.710,约登指数分别为0.340、0.269、0.330,灵敏度分别为0.589、0.503、0.639。脂肪肝合成预测模型ROC曲线下面积和约登指数介于Cox比例风险模型与Logistic回归模型之间,灵敏度最高。脂肪肝合成预测模型具有优于传统纵向数据分析模型的预测能力,且不需要大量纵向数据,是一种简单... 相似文献
9.
《应用科学学报》2017,(5)
隐私保护、数据丢失、网络错误等原因导致网络中大量数据存在不确定性.数据流系统中数据连续不断到达系统,故不能一次性获得全部数据,此外数据的概念特征经常发生变化.针对这种情况,构建了一个增量式分类模型来处理数据具有不确定性的隐含概念漂移的数据流分类问题.该模型采用非常快速决策树算法,在学习阶段使用霍夫丁边界理论迅速构建能处理数据不确定性的决策树模型;在分类阶段将加权贝叶斯分类器应用于决策树的叶子节点,以提高不确定数据分类的准确率;采用滑动窗口技术和替换树来处理数据流中的概念漂移现象.实验表明,无论对人工数据还是实际数据,该算法均有较高的分类准确率和执行效率. 相似文献
10.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率. 相似文献
11.
目前方法获取电网调度信号特征过程中,针对在异常数据提取时提取精度不高、数据覆盖率欠高、提取效果差的问题,提出数据挖掘下电网调度信号异常数据提取方法首先利用数据挖掘中的ICA算法对电网调度信号去噪处理;再利用Mallat算法将电网调度信号进行小波分解,获取电网调度信号的信号特征;最后通过对电网调度信号数据中异常值计算,获取异常数据检测阈值,完成电网调度信号异常数据提取实验结果表明,运用该方法提取信号中的异常数据时,数据提取的精度高、数据覆盖性能好、提取的效果好 相似文献
12.
目前遥感数据广泛应用于地表信息的提取,因复杂性、不确定性,分类方法不一。文中介绍了决策树、神经网络和支持向量机方法等人工智能分类法的算法,分析了探讨了其在遥感分类中的优势与局限,并从提高遥感分类精度的角度进行了总结与展望。 相似文献
13.
以齐齐哈尔市辖区为研究区域,利用分类回归树(Classification and Regression Tree,CART)算法从训练样本数据集中挖掘分类规则,集成遥感影像的光谱特征、纹理特征和地学辅助数据建立研究区的决策树模型.用实测的GPS样本点对分类结果进行精度验证,并与最大似然监督分类方法(Maximum Likelihood Classification,MLC)进行对比.结果表明,基于CART的决策树分类结果的总精度和Kappa系数分别为82.24%和0.77,分类精度较MLC监督分类方法有明显提高,有较好的分类效果. 相似文献
14.
决策树分类ID3算法研究 总被引:1,自引:0,他引:1
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法. 相似文献
15.
16.
设计单位应用数字化设计技术的核心是从交付图纸向交付数据转变,解决项目全生命周期数据的互联互通和多方的信息共享问题针对目前国内设计单位和电网企业之间的数据协同不足、数据不一致问题,该文首先全面梳理了设计单位与电网企业全过程的业务流程以及流程中所采用的数据编码,并分析了设计业务编码与电网企业编码之间的数据对应关系然后,采用面分类法对上述编码所涉及的信息重新分类,对相关信息进行更加合理的组织,提出数据建模方法最后,结合电网企业信息化系统和设计单位数字化设计平台的现状,提出构建设计主数据管理系统的思路和系统功能,为电网信息编码与数字化设计融合提供技术手段和支撑 相似文献
17.
针对篮球比赛中的运动目标跟踪问题,提出了一种基于DSP和FPGA的嵌入式篮球运动视频目标跟踪算法,将Mean Shift算法用于跟踪篮球运动视频目标,并给出了DSP FPGA的硬件设计该方法先建立一个包含运动目标的搜索窗,并初始化其位置和大小,进一步计算搜索窗的色彩直方图然后,输入待搜索图像,运行Mean Shift,获得新的搜索窗位置和大小;最后,基于Mean Shift算法迭代,获得运动目标的新位置FPGA方便电路设计,DSP则运行目标跟踪算法实验证明,提出的方法在激烈的比赛中依然能够准确跟踪运动目标 相似文献
18.
高校数字化校园建设过程中的信息孤岛问题由来已久,这一问题的存在阻碍了高校之间和高校内部的信息交换与共享,使数字化校园建设难以深入进行下去.在统一的信息基础标准,统一的信息分类编码的基础上,利用IRP技术进行基础数据的整合能够很好地解决这一问题. 相似文献
19.
20.
针对遗传算法无法利用系统中的反馈信息,求解到一定范围时出现的冗余迭代,求精确解效率低,局部搜索能力弱、易出现"早熟"现象等缺点,提出了采用蚁群信息素对均匀划分子空间进行标定,利用留存的信息素控制选择操作,采用双重选择算子、基于"杂交优势"思想的交叉算子和自适应变异算子的混合遗传算法.实验表明,采用该算法的分类系统的分类准确率、算法运行时间、算法收敛性等方面性能均有明显提高. 相似文献