首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对数据挖掘中的分类问题,依据组合分类方法的思想,提出一种基于遗传算法的多重决策树组合分类方法.在这种组合分类方法中,先将概率度量水平的多重决策树并行组合,然后在组合算法中采用遗传算法优化连接权值矩阵.并且采用两组仿真数据对该方法进行测试和评估.实验结果表明,该组合分类方法比单个决策树具有更高的分类精度,并在保持分类结果良好可解释性的基础上优化了分类规则.  相似文献   

2.
Global Skyline 查询是Skyline查询的一种变种,它和动态Skyline查询、反Skyline查询关系密切,已被广泛应用于多目标决策、网络监控、数据挖掘等方面。随着数据的积累,传统集中式的Skyline查询已经不能满足大数据的处理要求。为了高效解决大规模的基于时间序列的数据处理难题,提出了基于MapReduce框架并行的Global Skyline Cell查询算法。首先,通过对实际应用需求进行分析,本文提出了基于时间序列数据Skyline查询的时间倒排索引模型;并提出了Global Skyline格概念,利用格间的支配关系进行粗粒度高效剪枝,避免了大部分的无效运算;其次查询点将数据空间分割成不同象限,基于各象限进行轮询,实现了Global Skyline 格的查询,在此候选结果中得到Global Skyline点,为下一步实现动态Skyline和反Skyline查询奠定基础。最后,我们在Hadoop集群环境中实现了该算法。实验结果表明,该算法能有效解决基于时间序列的大规模数据Skyline查询的时间和空间矛盾,能够满足实际应用需求。  相似文献   

3.
利用灰色系统理论是研究贫信息系统分析、建模、预测、决策、控制的有效工具的特性,针对系统样本数据量不大或有残缺,样本数据更新变换快,整体数据规律相当复杂,而在某一时间或空间的数据却有很强的规律性之类的贫信息灰色系统中的数据挖掘课题,探讨了灰色系统理论与技术在数据挖掘中的应用问题,提出了贫信息灰色数据挖掘的灰色关联算法、灰色统计算法、灰色聚类算法、灰色统计聚类算法,并提出了灰色系统数据挖掘的体系结构。  相似文献   

4.
一种基于AF的决策树算法   总被引:1,自引:0,他引:1  
属性序列不同于一般的线性回归模型,其样本点之间存在着一定的相依结构,使得常用的探测异常值的方法,如数据删除、单点求导等,对时间序列而言效果不佳。为了探测时间序列中的强影响点,介绍了同时对几个点作微小扰动时自相关函数(AF)的扰动理论。从应用角度提出一种新的决策树方法,实验结果进一步证实,自相关决策树具有全面性与精确性,从而为进一步实现智能信息检索提供了一种个性化的高效信息检索工具。  相似文献   

5.
Skyline查询处理是近年来信息管理和数据库交叉学科的一个研究重点和热点, 其广泛应用于多标准决策支持系统、城市导航系统、数据挖掘和可视化以及信息推荐系统等领域. 然而, 在实际的联机查询应用中, skyline查询的结果具有固定和多用户共享特性, 因此, 随着时间的推进, 查询结果的可选择性逐步降低, 从而最终导致查询结果无法满足用户的需求. 为此, 提出k-quasi skyline查询, 来丰富传统skyline查询的结果集, 并与目前主流关系数据库产品无缝集成.为了提高任意维空间上k-quasi skyline查询的效率, 设计了基于正规格索引的计算方法EARG (efficient algorithm based on regular grid).EARG算法通过格之间的支配关系来缩减对象间的比较次数, 从而显著降低k-quasi skyline计算的时间开销.理论分析和实验结果表明, EARG算法具有有效性和实用性.  相似文献   

6.
粗集在决策树优化中的应用   总被引:11,自引:0,他引:11  
决策树是一种重要的数据开采方法,但构造最优决策树是一个NP困难问题,分析了以往决策树构造方法的不足,并从决策树最优化的观点详细研究了决策树构造过程中的几个重要问题,为防止决策树过细的分支,引入粗糙集中分辨的概念用于符号值属性的分划,并选择遗传算法优化求解,有关连续属性的处理,也给出了类似符号值属性分化的近似最小离散方法,在测试生成过程中还讨论了事例推理接口,基于上述分析,提出了决策树优化算法,这种算法从树的规模和分类精度都优于许多决策树算法。  相似文献   

7.
基于变精度粗糙集的分类决策树构造方法   总被引:4,自引:0,他引:4  
针对分类决策树构造时最优属性选择困难、难以适合大规模数据集的问题,提出新的属性选择标准--属性分类重要性测度,引入王信度和支持度,设计了基于变精度粗集理论的决策树算法.分类重要性测度可全面刻画属性的综合分类能力,且计算比信息增益简单.决策树生长过程中引入支持度和置信度,以控制决策树的生长,提高决策树对噪声数据集和不相容数据集的处理能力,减小决策树的规模.通过对UCI上5个不同规模和类型的数据集进行测试计算,结果表明算法效率高于ID3算法,与UCI报告的最好结果相当.  相似文献   

8.
面对物联网中的海量空间资源,在空间资源索引的构建中引入语义分类的方法,使得传统的IR树具备语义特征,支持用户对资源的语义查询,并提出一种top-k语义查询优化算法,通过对实际数据的使用和实验分析,得出索引结构的有效性和查询结果的正确性,从索引构建时间、查询时间和查询准确率3个指标来评估算法的性能,实验结果表明,算法支持语义空间资源索引构建,并且查询性能好,准确率高。  相似文献   

9.
DBMiner数据挖掘平台及其应用   总被引:5,自引:0,他引:5  
数据挖掘是智能信息处理的重要工具。介绍DBMiner数据挖掘平台的组成和原理,提出了多重知识模型的分层数据挖掘方法。基于综合衡量准则的决策性生成算法改善了生成决策树的结构和分类精度,基于遗传算法的n维空间优化参数的搜索算法。该数据挖掘平台已应用于多个应用领域均取得满意结果,介绍了在多元合金材料预报和家庭远程医疗监护方面的应用。  相似文献   

10.
连锁商业数据的"分布异构"和"地域差异"特性,使得传统决策树算法难以满足其跨区域的数据挖掘要求.通过分析不同地域经济水平、人口规模等地域经济因素对连锁商业网点销售行为的影响特征,提出将地域因素引入到连锁商业的分布式数据挖掘模型中;并在定义地域因子、决策树特征和决策树特征差异率等概念的基础上,提出了由地域分枝算法模块、特征差异算法模块和分店子树构造算法模块构成的RDT算法.通过在浙江某连锁商业集团杭州、绍兴、宁波、温州、台州、丽水和金华七个地市门店的实证分析,充分验证了算法模型的有效性.  相似文献   

11.
This article focuses on individual credit evaluation of commercial bank. The records of individual credit include both numerical and nonnumeric data. Decision tree is a good solution for this kind of issue. This year, the algorithm C4.5 of decision tree become popular, but C5.0 algorithm is still undergoing. In this article, we do some deep research on C5.0 algorithm by embedding “boosting” technology in cost matrix and cost-sensitive tree to establish a new model for individual credit evaluation of Commercial Bank. We apply our new model on evaluating the individual credit records of a German bank, and compared results of the adjusted decision tree model and the original one. The comparison shows that the adjusted decision tree model is more precise.  相似文献   

12.
利用单向S-粗集,给出单向S-粗决策规律生成方法;给出上决策规律,下决策规律,单向S-粗决策规律核,单向S-粗决策规律带,单向S-粗决策规律壳的概念;利用这些概念,提出下决策规律传递定理,上决策规律传递定理,F-分离的属性定理,粗决策规律挖掘定理,与粗决策规律挖掘准则。  相似文献   

13.
高维数据聚类是数据挖掘领域的重要研究课题,大规模高维数据聚类研究非常具有挑战性.针对高效的CABOSFV高维数据聚类算法,采用并行计算模式提高其大规模数据的处理能力,提出基于稀疏指数排序的高维数据并行聚类算法P-CABOSFV.该算法根据高维数据稀疏指数排序进行分割点选择实现数据划分,将数据分配到多个计算节点同时处理聚类任务,再基于集合稀疏特征差异度聚类结果合并策略将各计算节点的聚类结果合并得到最终聚类结果.UCI数据集和计算机合成数据集实验表明:高维数据并行聚类算法P-CABOSFV聚类质量良好,具有很强的数据规模和数据维度可扩展性,是有效可行的.  相似文献   

14.
针对客户关系管理中的客户分类问题,提出一种基于遗传算法的多重决策树组合分类方法.组合分类方法将概率度量水平的多重决策树并行组合,组合算法中采用遗传算法优化连接权值矩阵,并且采用客户信用等级评定的仿真数据对该方法进行测试和评估.实验结果表明,该组合分类方法比单个决策树及其他组合方法具有更高的分类精度,并在保持分类结果良好可解释性的基础上优化了分类规则.  相似文献   

15.
采用并行协同进化遗传算法的文本特征选择   总被引:1,自引:1,他引:0  
现有的文本特征选择方法都是串行化的, 应用于海量文本数据集时时间效率较低, 因此利用并行思想来提高文本特征选择的效率, 已成为文本挖掘领域的一个研究热点. 本文将 遗传算法和并行协同进化算法结合起来, 在粗糙集的基础上设计了一个并行协同进化遗传算法 并将该算法用于文本特征选择. 该方法采用遗传算法搜索特征, 利用并行协同进化算法来提高 时间效率, 从而较快地获得较具代表性的特征子集. 实验结果表明该方法是有效的.  相似文献   

16.
聚类算法常需处理海量和高维的大数据集,为了提高算法的效率,设计并行的聚类算法,以提供更好的计算能力是十分必要的。集群系统是目前流行的高效并行计算环境,针对大数据集聚类问题,集群系统的运用是一种很好的选择。由于RSOM(recursive self-organizing mapping,RSOM)模型具有内在的层次化及分布式结构特点,本文研究了基于集群的集中调度式RSOM树并行算法,并通过视频图像特征集实例证实了算法的可行性。  相似文献   

17.
在数据流挖掘中,界标窗体考虑了历史模式对当前挖掘的影响,但没考虑到随时间的推移模式衰减的问题。滑动窗口能记录最新、最有用的模式,但窗口的最佳大小无法准确确定。针对一些仿真系统中具有数据流特点的数据,提出了一种挖掘混合窗口中闭频繁项集的方法T-Moment。该方法能在单遍扫描数据流的条件下完整地记录模式信息。同时,T-Moment提出的减枝方法能很好地降低滑动窗口树F-tree的空间复杂度与闭频繁模式树T-tree的维护代价。此外,该方法提出的时间衰减机制能区分历史和最新模式。大量仿真实验结果表明,T-Moment有很好的效率和准确性。
Abstract:
In data mining,boundary window considers the influence of history pattern to the current mining result,but do not think over mode decaying as time passed. Sliding window can record the latest and most useful patterns,but the best size can not be accurately determined. To aim at data with the characteristics of data flow in some simulation systems,a method for mining the closed frequent patterns in the mixed window of data stream was proposed. The pattern of data stream could be completely recorded by scanning the stream only once. And the pruning method of T-Moment could reduce the space complexity of sliding window tree and the maintenance cost of the closed frequent patterns tree. To differentiate the historical and the latest patterns,a time decaying model was applied. The experimental results show that the algorithm has good efficiency and accuracy.  相似文献   

18.
组织协作网与决策树   总被引:4,自引:0,他引:4  
基于组织基本组成元素(决策者、平台和任务)的定义描述了组织协作网与决策树。通过对组织协作网与决策树的描述分析提出了组织结构设计的新思路:基于决策个体在任务上的协作关系设计最佳的决策树(组织决策的层次结构)。并描述了从组织协作网到决策树的生成过程,对生成过程的求解采用了优化协作树算法。针对案例对决策树的产生进行了求解和分析。  相似文献   

19.
为提高支持向量机(support vector machine, SVM)算法对大规模数据的适应能力,加快SVM算法的分类速度,提出一种基于决策树的快速SVM分类方法。该方法的重点在于构建一棵决策树,将大规模问题分解为相对简单的子问题,树中节点由线性支持向量机组成,每个节点包含一个决策超平面,分类过程取决于节点的数量。此方法在分类复杂样本时避免了使用非线性核函数。并且由于使用线性核函数,则不用进行模型选择,进一步加快了样本的分类速度。实验表明,针对大规模多特征数据的非线性分类问题,该方法比传统方法具有更高的速度。  相似文献   

20.
基于网络日志的数据挖掘预处理改进方法   总被引:1,自引:0,他引:1  
对网络日志数据挖掘预处理技术进行研究,针对Frame页面过滤方法与超时阈值设定进行分析,提出了应用ID3算法改进Frame页面过滤过程中丢失SubFrame页面信息且需要进行站点提升步骤。在超时阈值的设定方面采用动态修正方法,提高预处理技术对长时间会话的识别能力的改进方法。通过实验验证,该方法有效地减少了预处理过程中的信息丢失,同时提高了挖掘结果的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号