首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 179 毫秒
1.
连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了 一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考 察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算 法的有效性和实用性。  相似文献   

2.
离散化是Rough集理论研究的一个重要内容,目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾.文中分析了基于断点重要性算法和基于属性重要性算法的特点,确定了离散化思路,提出了一种基于Rough集的集成离散化算法.该算法能够有效降低候选断点的数目,快速地实现决策表的离散化.实验结果表明,文中算法保持了与已有算法可比的识别率,且运行效率更高.  相似文献   

3.
提出一种基于分类目标的启发式离散化算法, 通过该算法能够解决粗糙集理论中的连续属性离散化问题. 该算法充分考虑目标分类和属性的重要性, 在减少决策规则的同时完成了属性约简. 通过茶味觉信号的验证及与传统算法结果的比较, 验证了所给算法的有效性.  相似文献   

4.
在网络入侵异常检测中,数据预处理是一个非常重要的步骤,数据预处理的好坏直接影响后续检测的准确性.本文针对基于层次聚类的网络入侵异常检测中两个问题,在数据预处理阶段做出改进,一是属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减,二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据样本属性值分布来决定离散间隔,最后针对两个改进方法进行了实验,并与采用现有离散化方法进行了对比,实验结果证明了该算法的有效性和准确性.  相似文献   

5.
文章针对决策表属性离散化改进的贪心算法在信息表中判断断点存在的缺陷,通过引入属性重要性的概念,提出了基于属性重要性的贪心算法的改进方案,弥补了原算法无法选择断点的缺陷,通过计算属性的重要性大小,优先选择属性重要的断点。  相似文献   

6.
目前常用的离散算法多为单属性离散化算法.利用该类算法对多维连续属性进行离散化时,逐次对单个属性进行离散化,割裂了多维属性之间的关系.基于此提出了一种基于遗传算法和变精度粗糙集的多属性离散化算法.该算法基于变精度粗糙集所具有的较好数据分类容错和抗噪能力,通过变精度粗糙集近似分类精度建立遗传算法适宜度评价函数,并利用遗传算法在多维连续属性候选断点集上寻找最优断点子集.基于UCI数据集比较了所提算法与多种常用的离散化算法的差异,实验结果表明,该算法可以获得相对较好的离散化效果.  相似文献   

7.
基于粗糙集的故障案例特征提取方法   总被引:1,自引:0,他引:1  
针对故障案例特征属性提取在故障案例推理中的重要性,提出了案例的决策表表示形式,介绍了Semi-Naive-Scaler属性离散化算法,并给出了基于遗传算法的属性约简算法。在粗糙集的基本理论和方法基础上,计算了特征属性的重要度,给出了计算实例。  相似文献   

8.
一种基于可信度最优的数量关联规则挖掘算法   总被引:2,自引:0,他引:2  
研究了数量关联规划挖掘过程中的连续属性离散化问题,描述了连续属性离散化方程,包括连续属性区间划分算法和数据库样本大小的确定,提出了基于可信度最优的数量关联规则挖掘算法。该算法首先利用等深度划分算法对连续属性进行离散化,然后利用凸包处理技术提取强规则中可信度最高的数量关联区间,它对于数量关联规则的优化有着重要的应用价值。应用该算法对股票行情进行了数量关联分析,提取股票涨跌与股票价格之间可信度最高的关联规则。实验表明该算法是非常有效的。  相似文献   

9.
针对病理诊断规则获取问题,采用基于粗糙集理论的规则提取方法.首先进行连续属性的离散化,用遗传算法对CAIM(class-attribute interdependence maximum)离散化算法进行改进.然后利用粗糙集理论进行规则提取.采用以核为基础的增量式约简算法,综合考虑属性对约简的增益和属性在剩余属性集中的重要性,给出了衡量属性重要性程度的一个准则.随后进行属性值约简,获取诊断规则.  相似文献   

10.
提出一种基于连续属性离散化的知识分类方法.将条件属性按照重要度由高到低排序,并依照此排序将决策表中各条件属性依次离散化.在对决策表中条件属性的离散化过程中充分考虑已离散化的条件属性及决策属性,离散后的决策表不需要进一步约简.使用了模拟数据和UCI机器学习数据集中的数据进行算法测试,而且与其他离散化算法进行了对比,结果充分证明了新方法的有效性.  相似文献   

11.
李晓晴  于海征 《科学技术与工程》2022,22(24):10602-10610
贝叶斯网络源于人们对人工智能领域不确定性问题的研究,是进行不确定问题推理和数据分析的重要工具。结构学习是贝叶斯网络研究的核心内容,K2算法是结构学习的经典算法之一。为解决K2算法学习效果强烈依赖于节点序的问题,本文提出一种新的混合结构学习算法:双重K2算法。该算法首先将节点信息作为初始节点序,通过K2算法的搜索策略得到初始网络结构;然后在初始网络结构上利用拓扑排序得到修正后的节点序;最后K2算法通过修正后的节点序学习得到最优的网络结构。通过实验验证,在精度和效率上,双重K2算法效果优于其它经典算法。  相似文献   

12.
多分类贪婪算法的一致性   总被引:1,自引:0,他引:1  
学习理论中,许多学习算法可以描述为一个最小化适当损失函数的贪婪过稗.贪婪算法小依赖于所估计问题的参数的数目,在处理较弱条件的统计估计问题中具有较大的优势.本文研究基于凸风险最小化方法的多分类贪婪算法,推广二分类的学习问题到多分类的情形,建立了多分类贪婪算法的估计误差,证明了该学习算法的一致性。  相似文献   

13.
使用机器学习算法对建筑能耗进行预测正逐渐成为建筑设计初期重要的决策辅助工具,机器学习算法的选择及其参数设置一直是机器学习领域研究的热点和难点。但现有研究大多从算法原理角度进行预测模型的选择及参数设置,训练样本集的特征信息未得到充分利用。为此,提出一种以样本量及样本分布特征为出发点的样本集质量分类方法,针对不同质量样本集测试不同机器学习算法的学习性能,制定不同质量样本集的算法选择及参数设置策略。分析样本特征与算法性能之间的关系,为建筑设计提供有效指导。  相似文献   

14.
At present, studies on training algorithms for support vector machines (SVM) are important issues in the field of machine learning. It is a challenging task to improve the efficiency of the algorithm without reducing the generalization performance of SVM. To face this challenge, a new SVM training algorithm based on the set segmentation and k-means clustering is presented in this paper. The new idea is to divide all the original training data into many subsets, followed by clustering each subset using k-means clustering and finally train SVM using the new data set obtained from clustering centroids. Considering that the decomposition algorithm such as SVMlight is one of the major methods for solving support vector machines, the SVMlight is used in our experiments. Simulations on different types of problems show that the proposed method can solve efficiently not only large linear classification problems but also large nonlinear ones.  相似文献   

15.
在学习过程中自动发现有用的Subgoal,对于分层强化学习有着重要的意义。文章提出了一种最小k-聚类算法,该算法能通过对在线获取的少量路径数据进行聚类的方法,抽取出有用的Subgoal;实验表明,该算法能有效地发现所有符合要求的Subgoal,较多样性密度算法和FD算法有更强的Subgoal发现能力。  相似文献   

16.
流形学习算法是维度约简与数据可视化领域的重要工具,提高算法的效率与健壮性对其实际应用有积极意义.经典的流形学习算法普遍的对噪音点较为敏感,现有的改进算法尚存在不足.本文提出一种基于监督学习与核函数的健壮流形学习算法,把核方法与监督学习引入降维过程,利用已知标签数据信息与核函数特性,使得同类样本变得紧密,不同类样本变成分...  相似文献   

17.
流行学习是一种分类问题的有效解决方法.采用人脸数据库作为样本集,对主要几种线性算法和LLE算法进行实验分析,尝试引入一种监督LLE算法,在针对人脸数据库的实验中发现该算法在提取非线性特征中有较好的效果.  相似文献   

18.
一种用于RBF神经网络的支持向量机与BP的混合学习算法   总被引:6,自引:2,他引:4  
基于支持向量机与径向基(RBF)神经网络在结构上的相似性,提出了一种用于RBF网络的支持向量机与BP的混合学习算法.算法分为2步:首先采用序贯最小优化算法学习训练支持向量机,得到RBF网络较优的初始结构和参数;随后由BP算法调整优化RBF网络参数.混合学习算法结合了支持向量机小样本学习、学习训练快捷以及BP算法在线修改网络参数的特点.仿真研究表明,混合学习算法学习效率高,网络性能优良,应用于函数逼近时效果优良.  相似文献   

19.
空调系统能耗预测是实现智能调控、能源需求管理、系统节能的重要手段和前提之一,当前的空调系统能耗预测主要是基于机器学习算法。诸多机器学习算法的重要理论前提是数据的分布应尽量满足正态分布,然而空调系统的实际运行数据很少能满足正态分布特性,目前的研究鲜有涉及数据分布特性对空调系统能耗预测的影响。首先基于实际项目的空调系统能耗数据,从偏度和峰度两个指标分析了实际能耗数据分布与正态分布呈现出的偏离;然后通过对数变换对能耗数据进行数据变换,使能耗数据更接近于正态分布;接着以常见的4种能耗预测机器学习算法(广义线性回归算法、支持向量回归算法、人工神经网络算法、随机森林算法)对原始数据和经过数据变换后的数据分别进行空调系统能耗预测工作,分析负荷预测结果的RMSE和R~2统计量。结果对比发现,数据的分布特性对能耗预测有着重要的影响,合适的数据变换可以有效地提高空调系统能耗预测机器学习算法模型的预测效果。  相似文献   

20.
集成学习通过将若干弱分类器集成以取得比单个弱分类器更好的性能,是机器学习的重要研究方向。针对常用城市地理模拟系统中元胞自动机转换规则获取算法的局限性,本文提出基于集成学习算法的元胞自动机,并将其应用于城市建设用地的动态模拟。以决策树作为弱分类器,应用集成学习算法和元胞自动机,对东莞市2001年到2005年的建设用地时空格局进行了模拟,取得了较好的模拟效果。精度评估结果表明,经集成学习后的决策树比单个决策树对城市建设用地动态的模拟精度更高,算法泛化能力更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号