首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
数据挖掘技术可以从大量的数据中通过算法发现隐藏其中的未知信息,被广泛应用到各种数据分析任务中,然而教育数据挖掘领域的研究目前仍然很少.针对高校大学生成绩分析问题,研究了经典的数据挖掘算法的分类性能,包括支持向量机、多元自适应回归样条、K-最近邻、决策树和随机森林.基于随机森林算法的变量重要性度量,分析了软件工程专业特定的课程对于学生综合学习效果的影响和作用.在真实的大学生学习数据集上进行了实验,获得了一些有意义的发现.  相似文献   

2.
集成学习主要分为串行和并行学习方法.并行学习的优势在于分类器的并行学习和融合,对分类问题通常采用的融合策略为投票法或堆叠学习法,它们的代表分别为随机森林和堆叠泛化Stacking.为了进一步提高Stacking的分类性能,在经典Stacking算法原理的基础上,提出基于随机森林的多阶段集成学习方法,以随机森林作为基层的基学习算法,以投票法和学习法同时作为融合方法,来降低泛化误差.在UCI数据集上的实验结果表明,提出的模型在Accuracy和1F指标上,相比Bagging,随机森林和Stacking等分类器在分类性能上有很大的提升.  相似文献   

3.
在数据量很大时,原有的数据分类方法变得失效。因此提出一种新的基于抽样的数据分类算法PSS,并提出三种PSS并行化算法AS,HS和VS算法。在相同的数据量下,PSS算法比传统的sPRINT算法具有更好的性能。实验结果表明,PSS算法及其并行化算法是一种高效的数据分类算法,尤其适用于解决海量数据库中的数据分类问题。  相似文献   

4.
为了解决网络伪舆情事件分类过于主观以及分类标准模糊的问题该文基于网络大数据建立一个全新的伪舆情识别指标体系,在此基础上,收集过去一年中网络伪舆情事件的相关指标数据,基于Python软件利用经典的K均值聚类算法对网络伪舆情事件进行聚类分析,得到三个类别的网络伪舆情事件集,分析总结各类伪舆情事件本身的特点该文为网络伪舆情的识别与分类提供了一种全新的方法,为相关部门利用网络大数据准确控制各类伪舆情提供参考  相似文献   

5.
针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法。该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选。为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续亏损法、随机森林算法、BP神经网络算法、XGBoost算法进行比较。每个模型均训练50次,每次训练按一定比例随机选取数据,最终取各个指标的平均值作为最终实验结果。实验结果表明:所提出的决策树-逻辑回归模型对于僵尸企业的识别准确率最高,达到99.98%;并且模型的运行速度相对各种集成模型的速度有较大优势,平均执行时间约为1.5 s。在各实验环境中,实验结果差异较小,验证了该模型的有效性和稳定性。  相似文献   

6.
用随机决策树群算法进行高光谱遥感影像分类   总被引:1,自引:0,他引:1  
摘要: 高光谱影像具有丰富的光谱信息,与全色、多光谱影像相比能更好地进行地面目标的分类识别. 该文对决策树分类算法的优劣进行分析,引入随机决策树群算法,对青海省祁连县Hyperion高光谱影像和IRS-P6影像数据进行实验,使用子空间划分和光谱距离进行降维后,分别采用支持向量机、神经网络、最大似然法进行分类,并与随机决策树群算法分类结果进行比较. 结果表明,该算法表现最优且无需降维预处理,可广泛应用于高光谱遥感领域.  相似文献   

7.
为了对运动员训练过程中的运动进行自动分类,以可穿戴式惯性传感器采集的信息为基础,提出了一种基于离散小波变换(DWT)和随机森林分类器的分类方法 .首先,通过佩戴于身体特定部位的微型加速度计和陀螺仪,采集速度和角度信息,从而估计出运动员的膝关节和髋关节的运动角度.然后,通过DWT从关节角度信息中提取特征.接着,利用提取的特征集来训练随机森林分类器,以此实现运动的自动分类.实验结果表明,该方法能够有效分类出多类运动,具有较高的分类精度.  相似文献   

8.
研究脂肪肝预测模型,旨为脂肪肝易发人群健康管理及风险评估提供参考。选取2006—2016年在西部战区总医院健康体检中心定期健康体检人群作为研究对象(体检中心为该人群建有专门软件用于管理体检数据资料),将随机森林算法筛选脂肪肝危险因素的效果与Logistic回归模型、人工神经网络、单棵决策树分类模型相比较。4种方法筛选脂肪肝影响因素准确率分别为88.0%、83.3%、83.9%、86.0%,随机森林筛选脂肪肝危险因素的准确率高于Logistic回归模型、人工神经网络和单棵决策树分类模型。基于随机森林算法与合成分析法建立脂肪肝合成预测模型,并评价其预测效能。研究结果表明,Logistic回归预测模型、Cox比例风险模型和脂肪肝合成预测模型的ROC曲线下面积分别为0.732、0.681、0.710,约登指数分别为0.340、0.269、0.330,灵敏度分别为0.589、0.503、0.639。脂肪肝合成预测模型ROC曲线下面积和约登指数介于Cox比例风险模型与Logistic回归模型之间,灵敏度最高。脂肪肝合成预测模型具有优于传统纵向数据分析模型的预测能力,且不需要大量纵向数据,是一种简单...  相似文献   

9.
隐私保护、数据丢失、网络错误等原因导致网络中大量数据存在不确定性.数据流系统中数据连续不断到达系统,故不能一次性获得全部数据,此外数据的概念特征经常发生变化.针对这种情况,构建了一个增量式分类模型来处理数据具有不确定性的隐含概念漂移的数据流分类问题.该模型采用非常快速决策树算法,在学习阶段使用霍夫丁边界理论迅速构建能处理数据不确定性的决策树模型;在分类阶段将加权贝叶斯分类器应用于决策树的叶子节点,以提高不确定数据分类的准确率;采用滑动窗口技术和替换树来处理数据流中的概念漂移现象.实验表明,无论对人工数据还是实际数据,该算法均有较高的分类准确率和执行效率.  相似文献   

10.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

11.
目前方法获取电网调度信号特征过程中,针对在异常数据提取时提取精度不高、数据覆盖率欠高、提取效果差的问题,提出数据挖掘下电网调度信号异常数据提取方法首先利用数据挖掘中的ICA算法对电网调度信号去噪处理;再利用Mallat算法将电网调度信号进行小波分解,获取电网调度信号的信号特征;最后通过对电网调度信号数据中异常值计算,获取异常数据检测阈值,完成电网调度信号异常数据提取实验结果表明,运用该方法提取信号中的异常数据时,数据提取的精度高、数据覆盖性能好、提取的效果好  相似文献   

12.
目前遥感数据广泛应用于地表信息的提取,因复杂性、不确定性,分类方法不一。文中介绍了决策树、神经网络和支持向量机方法等人工智能分类法的算法,分析了探讨了其在遥感分类中的优势与局限,并从提高遥感分类精度的角度进行了总结与展望。  相似文献   

13.
以齐齐哈尔市辖区为研究区域,利用分类回归树(Classification and Regression Tree,CART)算法从训练样本数据集中挖掘分类规则,集成遥感影像的光谱特征、纹理特征和地学辅助数据建立研究区的决策树模型.用实测的GPS样本点对分类结果进行精度验证,并与最大似然监督分类方法(Maximum Likelihood Classification,MLC)进行对比.结果表明,基于CART的决策树分类结果的总精度和Kappa系数分别为82.24%和0.77,分类精度较MLC监督分类方法有明显提高,有较好的分类效果.  相似文献   

14.
决策树分类ID3算法研究   总被引:1,自引:0,他引:1  
张桂杰  王帅 《松辽学刊》2008,29(3):135-137
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法.  相似文献   

15.
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集成算法. 该算法利用频繁模式挖掘的原理,将未剪枝的集成分类器和样本空间映射为事务数据库,并利用布尔矩阵存储分类结果,然后从中挖掘频繁基分类器组成最终的集成分类器,达到选择性集成的目的. 实验结果表明,与集成分类算法Bagging、AdaBoost、WAVE 和RFW 相比,该算法减小了集成分类器的规模,提高了集成分类器的分类精度和分类效率.  相似文献   

16.
设计单位应用数字化设计技术的核心是从交付图纸向交付数据转变,解决项目全生命周期数据的互联互通和多方的信息共享问题针对目前国内设计单位和电网企业之间的数据协同不足、数据不一致问题,该文首先全面梳理了设计单位与电网企业全过程的业务流程以及流程中所采用的数据编码,并分析了设计业务编码与电网企业编码之间的数据对应关系然后,采用面分类法对上述编码所涉及的信息重新分类,对相关信息进行更加合理的组织,提出数据建模方法最后,结合电网企业信息化系统和设计单位数字化设计平台的现状,提出构建设计主数据管理系统的思路和系统功能,为电网信息编码与数字化设计融合提供技术手段和支撑  相似文献   

17.
针对篮球比赛中的运动目标跟踪问题,提出了一种基于DSP和FPGA的嵌入式篮球运动视频目标跟踪算法,将Mean Shift算法用于跟踪篮球运动视频目标,并给出了DSP FPGA的硬件设计该方法先建立一个包含运动目标的搜索窗,并初始化其位置和大小,进一步计算搜索窗的色彩直方图然后,输入待搜索图像,运行Mean Shift,获得新的搜索窗位置和大小;最后,基于Mean Shift算法迭代,获得运动目标的新位置FPGA方便电路设计,DSP则运行目标跟踪算法实验证明,提出的方法在激烈的比赛中依然能够准确跟踪运动目标  相似文献   

18.
高校数字化校园建设过程中的信息孤岛问题由来已久,这一问题的存在阻碍了高校之间和高校内部的信息交换与共享,使数字化校园建设难以深入进行下去.在统一的信息基础标准,统一的信息分类编码的基础上,利用IRP技术进行基础数据的整合能够很好地解决这一问题.  相似文献   

19.
缺失值数据是目前研究数据分析的一个重要领域,随着智能医疗的迅速发展,如何充分利用海量数据挖掘出其中的重要信息,对隐藏的疾病做出预测并进行提早的干预治疗显得尤为重要.但在实际预测中,经常面对不完备数据集,从心脏病数据集出发,基于随机森林算法加以贝叶斯优化算法动态调参,提出心脏病缺失值补足算法.以准确率ACC作为算法的评判依据,通过精度和时间2个方面进行验证,4种算法对比实验结果表明,提出的算法具有更准确的填补效果.  相似文献   

20.
针对遗传算法无法利用系统中的反馈信息,求解到一定范围时出现的冗余迭代,求精确解效率低,局部搜索能力弱、易出现"早熟"现象等缺点,提出了采用蚁群信息素对均匀划分子空间进行标定,利用留存的信息素控制选择操作,采用双重选择算子、基于"杂交优势"思想的交叉算子和自适应变异算子的混合遗传算法.实验表明,采用该算法的分类系统的分类准确率、算法运行时间、算法收敛性等方面性能均有明显提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号