首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
决策树分类算法是智能指导系统实现"智能"的一种有效工具。通过对数据的分析和挖掘,能够实现对数据的精确分类。另外,对于决策树和产生式规则集的计算相对简单而且高效。提出了智能指导系统,并介绍了该系统的主要功能模块。在比较了ID3算法和C4.5算法后,结合个性化教学的需求,提出了新的基于规则属性相关的C4.5r算法。同时,给出了系统的计算评估模块。实验结果表明,新的C4.5r算法在运算时间、产生式规则集的规模及计算产生式规则的开销方面明显优于传统的C4.5算法。  相似文献   

2.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

3.
在大型网络数据库信息检索中,由于数据库信息资源的存储资源具有多源属性,对数据库信息检索和调度过程中会产生大量的干扰数据,对干扰数据的有效降噪滤波是提高数据库信息检索的关键。本文探讨一种基于语义关联度特征提取的多源数据库信息检索干扰数据降噪滤波算法。构建多源数据检索模型,结合自适应算法调整权重,实现多源数据库信息检索语义关联度特征提取和干扰降噪。仿真表明采用该算法能有效滤除了干扰数据,提高多源数据库信息检索精度和抗干扰能力。  相似文献   

4.
智能配电网异常数据的准确辨识对于提高电网安全运行和调度具有重要意义。本文提出一种基于多元数据特征和改进随机森林算法的异常数据辨识方法。首先,在分析异常数据辨识过程的基础上,利用k-means、箱线图法等提取原始数据异常特征;考虑配电网技术需求,挖掘电网运行的衍生特征。然后,针对类不平衡问题提出结合过采样方法的混合Bootstrap抽样和加权投票策略,引入信息增益率优化最优特征选择,增加算法稳定性。最后,仿真分析了决策树数量和衍生特征对算法辨识性能的影响,并与支持向量机、神经网络等算法进行性能比较。实验结果表明本文方法有效、合理,具有优异的辨识性能和效率。  相似文献   

5.
决策树算法在医学图像数据挖掘中的应用   总被引:8,自引:1,他引:8  
目的研究决策树算法在医学图像数据挖掘中的应用。方法利用决策树算法对乳腺癌图像数据进行分类,提出了一个基于决策树算法的医学图像分类器。结果实现了ID3和C4.5算法对图像数据的分类,获得了分类的实验结果。结论该模型系统达到了较高的分类准确率,证明数据挖掘在辅助医疗诊断中有着广泛的应用前景。  相似文献   

6.
提出适合并行计算的空间数据分区算法,并在此基础上提出基于并行计算的空间co-location挖掘算法.在三类数据集上做了大量的实验.实验结果表明,基于并行计算的算法在很大程度上提高了挖掘的效率,为进行空间大数据的挖掘提供了有效且快速的方法.  相似文献   

7.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

8.
OPFP-MAX是基于有序FP-tree结构和投影数据库的最大频繁模式挖掘算法。有序FP-tree结构不仅可以减少空间的浪费,而且由于树结构的有序性,在挖掘数据时可以减少挖掘事务项的数量,从而加快挖掘效率。算法采用垂直投影方案实现数据分解,基于投影数据库创建局部树结构,从而进一步减少对系统空间资源的浪费。采用优化策略加快挖掘效率。实验验证了算法的可行性和优越性。  相似文献   

9.
为解决多数据源挖掘隐私保护问题,文章采取按相似度分类多源数据库及其增量数据库,利用原始数据库挖掘结果和增量数据库分析结果进行敏感序列模式匹配,以有效减少数据库扫描次数的方法,设计实现隐私保护的增量式的高投票率序列模式挖掘算法。实验结果表明,给出的算法既能够准确挖掘出多数据源中全局高投票率模式,又能有效地隐藏保护敏感模式,且显著缩短了挖掘时间。  相似文献   

10.
目前上存有大量的数据信息,如何对这些数据进行有效的应用已经成了当前数据库技术研究的重点。基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文介绍了基于移动Agent的Web数据挖掘技术,各挖掘算法集中到移动Agent子系统中,并根据要求动态地创建,然后派遣它们到数据站点数据库中进行数据挖掘,提出了一种基于Web数据挖掘的模型。  相似文献   

11.
针对传统非线性盲源分离(NBSS)算法容易陷入局部最优解从而导致分解精度较低的问题,提出一种基于改进粒子群优化(PSO)的NBSS算法。该方法利用多层感知机(MLP)拟合非线性混合的逆过程,并将分离信号的互信息最小作为优化目标(PSO的适应度),从而实现MLP中参数的优化。然而,标准PSO算法存在粒子早熟从而使待优化问题陷入局部最优解,针对这一问题,对适应度低的一部分粒子进行依概率的杂交和变异,使粒子群体在整个迭代过程中保持多样性,从而有效解决标准PSO算法的粒子早熟问题。仿真和试验结果表明,相比于线性盲源分离算法和基于标准PSO的NBSS算法,提出的算法可以从非线性混合机械信息中提取纯净的独立源信息,并且提高了非线性混合源的分离精度,为机械系统的监测诊断和振动噪声溯源提供科学依据和关键技术。  相似文献   

12.
数据挖掘本质上是一种新的商业信息处理技术,通过对数据进行统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识,用以指导高级商务活动。由于需要,对数据间的关联性的数据挖掘算法模型已成为数据库及相关领域的一个研究热点,给出了一种基于分布式数据库的挖掘模型及其相应的一种有效的挖掘算法,其由若干个站点集合而成,各个站点拥有各自的数据库、中央处理机、客户端,以及各自的局部数据库管理系统,依靠通讯网络连接。采用购物篮分析式关联规则,将各个数据库文件的数据合成,从而得到挖掘结果,对挖掘的方法又进一步挖掘,即将不满足条件的规则重新传送到各分布式站点上进行更加精确的挖掘处理,从而避免了频繁的网络通讯。该算法在减轻网络频繁的通讯负担,体现并行计算以及异构数据挖掘方面具有独特优点。  相似文献   

13.
黄慧 《科技信息》2011,(8):245-246
本文采用Visual c++.NET和SQL Server 2005架构,开发了基于数据库技术的设备信息管理系统,并在其基础上,运用数据仓库技术凝炼数据,利用分析、挖掘工具,为管理决策层提供决策信息。阐述了基于OLAP挖掘模型的创建及应用方法,以达到预测大型设备故障率等开发目的;通过决策树分类算法实现设备的合理配置;通过关联规则实现设备的使用状况评价,为管理层提供较为全面的决策信息支持。  相似文献   

14.
在ID3算法基础上提出了基于卡方测试的前剪枝算法,并在Jbuilder2006系统下构建了一个基于决策树挖掘技术的可视化决策系统。该研究基于B/S架构的系统,通过浏览器自动将服务器上的A pplet下载到客户端来访问系统,实现了医疗系统的手术诊断数据表的数据挖掘,所得到的实验结果与专家诊断结果基本吻合,取得了较好的实际应用效果。  相似文献   

15.
从大规模数据库中挖掘关联规则是数据挖掘研究的一个重要问题.基于内存共享的对称多处理器系统SMP是目前广泛应用的并行计算系统,在关联规则串行挖掘算法Apriori的基础上,针对SMP系统设计一种基于Hash树的并行算法.理论分析和实验表明算法是有效的,具有良好的加速比.  相似文献   

16.
针对化工生产系统中状态监控变量数量庞大、冗余度高等问题,提出了一种采用相空间重构的多源数据融合方法。该方法首先根据互信息法和Cao方法分别求取相空间重构参数延迟时间和嵌入维数;然后,基于信息熵对自适应加权融合估计方法的融合目标函数进行改进,并利用社会认知优化算法确定各信息源的权重系数,实现多源数据融合;最后,通过实际化工生产系统的数据分析对所提方法进行有效性验证。实验结果表明,相比于传统方法,由该方法得到的重构相空间的信息更加完备,其信息量和平均峰值信噪比分别平均提高135.6%和40.6%。该方法为解决多源异类传感器数据融合问题提供了一种新思路。  相似文献   

17.
刘璇 《科技信息》2012,(30):289-289
本文论述了决策树分类挖掘系统中的ID3算法和C45算法的建立思想,并将其应用到优化图书馆数据统计中,实践证明了该方法的可行性。  相似文献   

18.
不确定信息的模糊决策融合算法   总被引:2,自引:0,他引:2  
针对不确定性问题,提出了一种新的基于知识发现的信息融合的方法·利用模糊决策树的ID3算法对测试空间中的大量不确定多源信息数据进行综合分析、处理,建立准确的评估模型,提取隐含其中的规则,最终获取新的知识·此方法已成功应用于吉林丰满水电数字仿真系统中的考核系统·实验证明,这种知识提取方法充分体现了信息融合中解决多源信息数据的思想,能很好地解决系统中数据存在的无序、不确定问题,并能有效地提取出规则·  相似文献   

19.
一种新的模糊决策树模型及其应用   总被引:1,自引:0,他引:1  
模糊决策树是决策树在模糊环境下的一种推广,虽然其表示形式更符合人类的思维,但在构造时会增加预处理的工作量和创建树时的开销。基于这种情况,提出了一种混合算法,算法保留了较少属性值的Shannon熵,计算多属性和连续属性值模糊化后的模糊熵。将该算法应用于滑坡数据的挖掘中,得到了更易于理解的决策树和有效的规则,与传统算法的性能比较也证明了该算法的有效性。  相似文献   

20.
基于关联规则的日志分析系统的设计与实现   总被引:2,自引:0,他引:2  
网上广告势必成为中国广告业不可取代的部分,广告人总是期望广告能获得最好的效果.为此,本文设计并实现了一个基于关联规则数据挖掘的日志分析系统,数据挖掘引擎在实现过程中针对挖掘数据的特点对Apriori算法进行了改进,并通过仿真数据库对挖掘结果进行了验证,日志分析系统获得的"知识"可以直接用于改善Web的信息服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号