首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 265 毫秒
1.
在测试代价敏感决策系统中,测试代价敏感属性约简方法是一种寻找测试代价尽量小的属性集的有效方法.但是,约简后决策系统只保留了简洁完整的信息,其所构造的分类器精度会有所降低.假设我们拥有有限但多于最小测试代价的资源,那么我们可以充分利用这些资源来获得更高质量的分类器.本文针对这种情况做了以下两个工作:1)我们在最小测试代价约筒的基础上添加好属性,寻找一个更好的属性集.2)提出了一种改进的决策树算法,提高分类器质量.该算法选择一些当前最好的属性值来构建结点,这些属性值能够覆盖当前相应的训练集.实验表明:1)改进的决策树算法能够获得比ID3更高的分类准确度;2)与最小测试代价约简的分类器相比,在最小测试代价约筒的基础上添加一些的好属性,可以获得更高质量的分类器;3)该方法在减少测试代价开销的同时,保证了分类器的质量.  相似文献   

2.
基于粗集的ID3算法研究   总被引:5,自引:0,他引:5  
决策树是数据挖掘任务中分类的常用方法,ID3算法是经典的决策树生成算法,它的核心是通过计算各个属性的信息熵来确定最好的分枝结点.给出一种用粗集的方法计算信息熵,应用ID3算法来生成决策树.  相似文献   

3.
决策树分类ID3算法研究   总被引:1,自引:0,他引:1  
张桂杰  王帅 《松辽学刊》2008,29(3):135-137
分类是数据挖掘的重要内容之一,在许多领域得到广泛应用,现已有多种分类方法,其中决策树分类法在海量数据环境中应用最为广泛,本文分析了决策树分类ID3算法的原理,给出构造决策树的基本算法,指出ID3算法构造决策树的优缺点,针对ID3算法倾向于取值较多的测试属性的缺点,引入一个参数来约束属性选择,给出一种优化算法.  相似文献   

4.
创建决策树算法的比较研究——ID3,C4.5,C5.0算法的比较   总被引:9,自引:0,他引:9  
采用多种决策树算法,针对常用的决策树算法在特定样本下的性能进行了分析,提出了选择信息增益率最大的属性作为决策属性算法性能的评价方法.  相似文献   

5.
针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法。该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选。为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续亏损法、随机森林算法、BP神经网络算法、XGBoost算法进行比较。每个模型均训练50次,每次训练按一定比例随机选取数据,最终取各个指标的平均值作为最终实验结果。实验结果表明:所提出的决策树-逻辑回归模型对于僵尸企业的识别准确率最高,达到99.98%;并且模型的运行速度相对各种集成模型的速度有较大优势,平均执行时间约为1.5 s。在各实验环境中,实验结果差异较小,验证了该模型的有效性和稳定性。  相似文献   

6.
随着人们对数据挖掘理论知识的不断研究和探讨,数据挖掘技术和应用领域日趋成熟和广泛。在数据挖掘技术中,决策树方法是用于分类和预测的重要方法之一。本文对决策树构造方法中最为常用的ID3算法进行分析和研究,并将ID3算法在构件库中进行应用,证明了决策树分类方法在构件库领域中的应用前景。  相似文献   

7.
田苗苗 《松辽学刊》2008,29(1):54-56
本文对决策树数据挖掘方法进行分析和比较,并应用该分类方法对网页文本进行分类,仿真实验结果证明决策树算法在文本分类研究领域有着广阔的应用前景.  相似文献   

8.
采用数据挖掘技术中的决策树方法,进行收视数据分析.收集大量的调查问卷作为待挖掘的样本,利用决策树经典算法C4.5,对样本集中的样本进行 学习,构造出一棵决策树.对决策树进行分析,得出电视收视分析相关的知识和规律,作为节目编制等的决策依据.  相似文献   

9.
针对当前校园扶贫工作普遍存在的“隐形贫困”及疑似“虚假贫困”等问题,提出了利用随机森林算法和决策树的贫困生认定方法首先,利用智慧校园大数据环境获取高校内学生的基本信息、消费信息等数据,找出10个具有分类能力的特征;然后使用基于permutation随机置换的残差均方减小量来衡量对于变量重要性评分;最后,基于随机森林算法和决策树进行判别与分类实验结果表明,提出的方法具有一定的准确性,相比Adaboost方法,无论是预测准确度还是平均绝对误差,随机森林方法都更出色  相似文献   

10.
研究脂肪肝预测模型,旨为脂肪肝易发人群健康管理及风险评估提供参考.选取2006—2016年在西部战区总医院健康体检中心定期健康体检人群作为研究对象(体检中心为该人群建有专门软件用于管理体检数据资料),将随机森林算法筛选脂肪肝危险因素的效果与Logistic回归模型、人工神经网络、单棵决策树分类模型相比较.4种方法筛选脂肪肝影响因素准确率分别为88.0%、83.3%、83.9%、86.0%,随机森林筛选脂肪肝危险因素的准确率高于Logistic回归模型、人工神经网络和单棵决策树分类模型.基于随机森林算法与合成分析法建立脂肪肝合成预测模型,并评价其预测效能.研究结果表明,Logistic回归预测模型、Cox比例风险模型和脂肪肝合成预测模型的ROC曲线下面积分别为0.732、0.681、0.710,约登指数分别为0.340、0.269、0.330,灵敏度分别为0.589、0.503、0.639.脂肪肝合成预测模型ROC曲线下面积和约登指数介于Cox比例风险模型与Logistic回归模型之间,灵敏度最高.脂肪肝合成预测模型具有优于传统纵向数据分析模型的预测能力,且不需要大量纵向数据,是一种简单便捷的脂肪肝预测方法.  相似文献   

11.
在分析决策树算法及遗传算法的基础上,提出了一种将两种算法结合起来挖掘分类规则的新方法.实验证明,它不仅解决了数据挖掘中的“碎片”问题,同时还提高了分类的准确率.  相似文献   

12.
阐述了风险决策中的决策树问题,举例分析了决策树如何为决策者提供最优方案.  相似文献   

13.
基于案例的决策是一种直接依据过去的历史案例对当前案例进行分类或者指标预测的方法,K-近邻方法就是一种广泛应用的基于案例的决策模型。在K-近邻方法中,历史案例上需要有标签,而在现实应用中,标签本身有一定的不确定性.文章详细地讨论了现有的基于K-近邻的决策方法忽略了样本标签不确定性这一问题,并基于Dempster-Shafer证据理论对标签不确定性进行建模以改善预测的性能,在此基础上结合边界树模型提高模型的运行效率.文中介绍了边界树算法的作用与原理,对如何结合传统边界树算法与样本标签的不确定性对边界树算法的节点转移策略以及决策过程进行了优化.文章最后对边界树算法的计算规模与准确率做了详细的实验论证.结果表明,文中提出的方法一方面考虑了标签的不确定性,另一方面提高了传统的K-近邻模型的决策效率.  相似文献   

14.
研究了以决策树结构取代原有入侵检测系统采用的链表结构,在于改进入侵规则的存储和模式匹配,提高检测速度.用C4.5算法为决策树每个规则集节点动态选择最显著的特征,进行并行测试,实现性能优化.为了减少冗余比较和无效匹配,运用了一种基于C4.5决策树裁剪算法,以规则信息量作为判断标准.研究结果表明,此方法可以提高最终模型的预测精度,并能克服噪音数据,有效地提高了模式匹配速度和规则的访问速度.  相似文献   

15.
以齐齐哈尔市辖区为研究区域,利用分类回归树(Classification and Regression Tree,CART)算法从训练样本数据集中挖掘分类规则,集成遥感影像的光谱特征、纹理特征和地学辅助数据建立研究区的决策树模型.用实测的GPS样本点对分类结果进行精度验证,并与最大似然监督分类方法(Maximum Likelihood Classification,MLC)进行对比.结果表明,基于CART的决策树分类结果的总精度和Kappa系数分别为82.24%和0.77,分类精度较MLC监督分类方法有明显提高,有较好的分类效果.  相似文献   

16.
带有存量的贷款组合优化决策模型是在模型中考虑存量贷款和增量贷款的关系,控制了银行全部贷款的组合风险。鉴于提出的模型是一个非线性的0-1分式整数规划问题,给出了一种混合改进贪婪变换的遗传算法,数值结果表明该算是有效的,可以求解中大规模问题,同时也说明所提出的模型是合理的。  相似文献   

17.
传统风险型决策主要是单指标带概率型决策,常用的解决方法有:均值法、方差法、变异系数法和满意度法等。文中在传统风险型决策问题上同多指标风险型决策问题,提出采用带概率的层次分析法来解决,并给出一实例来说明带概率层次分析法在多指标风险决策中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号