首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
代价敏感属性约简问题作为经典属性约简问题的自然扩展,将代价引入数据,使得属性约简问题更加具有现实意义。文章基于分治思想,先按列将数据集拆分为若干个互不相交的子数据集,然后对各子数据集进行约简,并把约简后的子数据集多路合并。依次继续执行约简和合并操作,最终得到最小测试代价约简。每个子数据集的大小及子数据集的总个数自适应于各个数据集的规模而非固定不变。为验证算法的有效性,选择四个UCI标准数据集进行实验,并与其他算法进行结果对比。实验结果表明,该算法能在较短时间内获得可接受的结果,更适应实际问题的需要。  相似文献   

2.
属性约简是粗糙集理论中的核心问题,其目的是剔除冗余属性以找到具有较好泛化能力的属性子集.在决策粗糙集理论中,决策代价经常被作为属性约简的约束条件.但值得注意的是,虽然基于决策代价的约简求解算法可以有效地降低训练样本集上的总决策代价,但其往往忽视了测试样本集上的总决策代价.为解决这一问题,利用交叉验证的基本思想,设计了以决策代价为约束条件的一种新的属性约简求解算法.在八个UCI数据集上的实验结果表明,相较于传统基于决策代价的约简求解算法,所提算法不仅能有效地降低训练集合和测试集合的总决策代价,而且找出的属性子集亦可以带来更好的分类性能.  相似文献   

3.
代价敏感属性选择在数据挖掘和机器学习中起着关键性作用,代价敏感属性选择问题是经典属性选择问题的自然扩展,已成为越来越多学者的研究热点之一.首先给出多代价下代价敏感属性选择问题的数学模型,然后介绍现有的有代表性的四种代价敏感属性选择算法,最后在四个UCI数据集上进行实验,对四种代价敏感属性选择算法的效果和效率进行比较分析.  相似文献   

4.
传统属性约简的目标是在决策表中的所有条件属性中,选择一组分类代价最小的约简,算法构建了测试代价最小的约简.以往的测试代价约简算法查找成功率不够理想,性能不稳定,提出了一种改进的测试代价约简算法.通过运行2个UCI数据集实验,证明算法是有效的,并为提高测试代价约简算法性能提供了新途径.  相似文献   

5.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

6.
为了在一定维护代价约束条件下,使查询过程中花费的总查询成本最优化,提出了最小/最大候选集变换算法.该算法构造最大候选视图集和最小候选视图集,基于最小有效的极大基数配比技术,并通过单位维护代价内的查询收益而设计的代价计算模型来获得最佳物化视图集.理论分析和实验结果表明该算法是高效、动态、近似最优的.与以往算法相比,在数据维度大、维层次复杂的情况下,该算法有着更优的执行效率.  相似文献   

7.
为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的适用于分布式数据挖掘环境的数据取样算法(OptiSim-DDM方法),算法核心是基于最优K相异性进行数据选择,采用移动Agent技术和扩展的最优K相异性数据多样化代表性子集选择方法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度,降低网络通讯代价,提高数据挖掘的执行效率,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的.  相似文献   

8.
代价敏感学习是数据挖掘和机器学习领域的重要课题.已有的研究方法多数针对单目标进行优化,并不适用于多目标代价敏感问题的解决.因此通过分析基于粗糙集领域的单目标代价敏感属性约简问题,定义了多目标代价敏感属性约简问题,并设计了一种简单高效的算法.在4个UCI数据集上的实验结果表明,该算法能获得令人满意的帕累托最优解集,以辅助用户进行方案的选择.  相似文献   

9.
代价是现实数据的重要方面.数据的测试代价与数据的误差范围,即数据的粒度紧密相关,而误分类代价又跟测试代价有关,已有的属性选择方法往往忽视了这一点.为了处理这种情况,提出了一种基于误差范围和可变代价的最优属性子集选择方法.首先建立了该方法的理论框架,再设计了相应算法.在该方法中,测试代价和误分类代价根据不同的误差置信水平自适应地生成.再以最小化平均总代价为目标进行属性选择,从而得到最优的属性子集和误差置信水平.实验结果验证了所提方法的有效性.  相似文献   

10.
针对当前LEM2系列算法提取规则的效率和质量不高的问题,提出了基于广义决策函数的改进LEM2算法(GLD-LEM2).该算法根据广义决策函数来计算候选属性-值对集T(G),通过删除冗余属性-值对来逐步缩小T(G)的规模,以提高规则提取的效率;同时,根据广义决策函数相交最小原则来选择属性-值对,优先提取最简规则,以提高获取规则的质量.实验结果表明,对于完备或不完备的决策表规则,GLD-LEM2算法均能有效地提高规则提取的效率和质量.  相似文献   

11.
数据挖掘所面对的数据常具有属性冗余、包含噪音等特点,使得更注重训练数据质量的分类模型训练周期变长、精度下降。因此,如何选择有效的属性集以约减数据规模,提高分类模型性能具有重要意义。文章将IV模型用于属性选择,提出了基于IV指标的属性选择算法FS-IV,该算法仅需一遍扫描计算出所需的相关统计量,解决了传统属性选择方法处理较大规模数据时空效率不高的问题。实验表明,FS-IV属性选择方法时空性能良好,对冗余、噪音属性均有较好的区分能力,能够有效地约减数据规模。  相似文献   

12.
通过速率分配将单数据流拆分到多网络可实现高速协作传输,但对无线随机接入网而言,这相当于增加了竞争传输的用户数,会导致接入碰撞率和平均等待时间增大.为此,文中提出了一种基于无线随机接入代价函数的协作传输速率分配算法,用信道利用率建立的价格函数来描述接入时间代价,按照以最小接入代价换取最大吞吐量收益的原则对速率分配进行数学建模,并证明了该速率分配问题是一个凸优化问题,还根据拉格朗日乘数法推导出了显式解.仿真结果表明:该算法可根据网络状态和信道效率进行网络选择和资源调度,在接入时延和分配公平性上进行了折衷;同时可避免接入重载随机接入网,从而提高接入效率.  相似文献   

13.
针对小微企业信用历史数据规模较小,而且类别不平衡问题较为严重,提出基于样本依赖代价矩阵的Smote XGboost-Bayes Minimum Risk(SXG-BMR)模型,对整体样本进行低倍率过采样,以弱化类别不平衡问题,降低模型过拟合的风险;模型将集成学习模型与最小风险贝叶斯决策相结合,以实现代价敏感。同时,模型中引入了样本依赖的代价矩阵,该代价矩阵不仅与类别有关,而且与样本自身属性有关,可以更为准确地表征代价。使用标准信用数据集和上海市小微企业信用数据集,进行多种算法的对比分析,结果表明,该模型性能优良。  相似文献   

14.
提出一种基于粗糙集理论的决策树分类算法.首先,将核属性集中的核属性进行合取后加入析取变换,实现属性约简;其次,在决策树构造阶段,对各条件属性分别求其上下近似集,进而得到各属性的近似精度.选择近似精度最大的属性作为决策树的根结点,以此方法递归应用到各子树上来选择决策树的结点并实现决策树的剪枝.实例分析表明,改进的算法提高了决策树方法的效率.  相似文献   

15.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

16.
提出了一种基于二进制灰狼算法和邻域粗糙集的案例推理分类算法(bGWO-NRSCBR),以有效处理工控网络数据样本高维、冗余的问题。首先,将邻域粗糙集(NRS)中的依赖度概念和属性个数作为二进制灰狼优化算法(bGWO)的适应度函数,通过狼群不断更新位置寻找最小相对属性集;然后基于属性重要度对权重进行优化分配从而建立案例推理(CBR)分类模型;最后利用该模型对工控网络标准数据集进行入侵检测研究。实验结果表明,本文算法能够获得最小相对属性子集,并有效提高入侵检测算法的准确度和效率。  相似文献   

17.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

18.
为提高基于超球的支持向量机算法中样本数据较多时的训练速度,提出一种构造最小超球的并行融合算法.该算法将全部训练数据集依据特定策略分割成若干个子数据集,分别对各个子数据集进行训练,对所得到的各子数据集的支持向量与融合数据进行训练,构造最小超球.仿真结果表明,并行融合算法在保证分类精度的情况下,能够显著减少训练时间,提高效率,且支持向量的数目较少.同时也验证了该文对Gauss核函数分析的正确性.  相似文献   

19.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

20.
针对目标属性识别的特点,建立了基于粗糙集(Rough Sets, RS)的数据分组处理(Group Method of Data Handling, GMDH)神经网络分类模型.该模型较好地解决了采用高维数据集训练神经网络效率低,神经网络结构规模较大的问题.同时为了提高高维数据集合的属性约简效率,改进了集合近似质量属性约简算法.最后,通过与BP(Back-Propagation, BP)神经网络分类能力的仿真对比,结果表明,基于粗糙集的数据分组处理神经网络分类模型分类能力优于BP神经网络模型,满足现代防空作战对目标属性识别的需求,基于快速求核和集合近似质量的属性约简算法快速有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号