首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Clustering in high-dimensional space is an important domain in data mining. It is the process of discovering groups in a high-dimensional dataset, in such way, that the similarity between the elements of the same cluster is maximum and between different clusters is minimal. Many clustering algorithms are not applicable to high dimensional space for its sparseness and decline properties. Dimensionality reduction is an effective method to solve this problem. The paper proposes a novel clustering algorithm CFSBC based onclosed frequent hemsets derived from association rule mining. which can get the clustering attributes with high efficiency. The algorithm has several advantages. First, it deals effectively with the problem of dimensionality reduction. Second, it is applicable to different kinds of attributes, Third, it is suitable for very large data sets. Experiment shows that the proposed algorithm is effective and efficient  相似文献   

2.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

3.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

4.
针对高维大数据不确定性的非均匀挖掘问题,提出一种基于不确定频繁模式树的模糊逻辑非均匀数据挖掘算法.首先,在考虑数据不确定性的前提下建立高维数据的区域连接演算(RCC)模型,并基于数据集合组元定义分析不确定数据集合的模糊距离;然后,采用不确定模式树对数据的非均匀特性进行均匀泛化处理,并给出了具体的实现步骤.仿真结果表明:文中方法有效地提升不确定非均匀数据集合在不同支持度情况下的挖掘效率.  相似文献   

5.
基于多核处理器, 结合自底向上和自顶向下两种算法, 提出一种图遍历驱动的双向优化算法, 该算法充分利用两种遍历算法的优点, 并发挥多核环境的优势, 实现了最优查询计划的高性能并行构建, 解决了并行双向枚举连接问题. 实验结果表明, 该算法的性能优于已有算法, 可明显提高数据库查询速度.  相似文献   

6.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

7.
主流数据挖掘算法不能有效解决大规模数值数据集挖掘问题。提出了一种应用于大规模数值数据集的线性时间封闭项集挖掘改进(Improved Linear time Closed Itemsets Minner, ILCM)算法。ILCM算法使用能够提取属性共同变化量的渐进模式挖掘方法,借鉴LCM算法的前缀保留闭合扩展思想,通过深度优先搜索输出频繁封闭渐进项集结果。实验证明,相比传统挖掘算法,ILCM能够显著提高算法运行效率和降低内存空间占用,并且能够有效处理如DNA微阵列等实际大型数值数据集挖掘。  相似文献   

8.
本文是将分支定界法与改进的割平面法、隐枚举法相结合,提出一种解决整数线性规划的混合型方法。用这种方法解决整数规划问题,能节省较多的计算量。  相似文献   

9.
针对一类含0-1变量的两层决策问题,探讨了用隐枚举方法求解过程中的变量搜索次序问题。在定义了变量搜索优先级之后,提出了一种基于变量搜索优先级的方法,理论分析与计算示例表明,所提出的方法能够最快地求到问题的全局最优解。  相似文献   

10.
用穷举法和隐枚举法解0-1型整数规划问题时,常常遇到组合爆炸问题。本文从约束条件入手直接给出某些变量的值,从而将减少了运算次数有效的改善了这一问题。  相似文献   

11.
频集挖掘是关联规则挖掘的关键步骤,它对强规则、相关分析和时间序列有着重要的意义.常用的频集算法包括Apriori和FP-G rowth.为了提高算法效率,提出了一种基于D iffset的混合算法———D iffsetHybrid,该算法根据数据集的稀疏程度决定采用D iffset的某种形式来挖掘频集,减少了存储空间,提高了算法效率.试验表明,该算法对于稀疏数据集和稠密数据集都有良好的计算性能.  相似文献   

12.
在综合研究知识网格的基础上,针对网格平台异构性、动态性和分布性等特点提出一种适应网格平台的多策略关联规则挖掘算法(multiple-strategies based hybrid distribution algorithm,MBHD).MBHD在HD算法的基础上,融合了市场机制优化策略、时间戳机制和令牌环策略,有效克服了网格中制约算法性能的负载均衡问题,并避免了不必要的网络负载和网络竞争的产生,从而解决了关联规则挖掘中最关键的算法耗时问题,并提高了算法的效率和性能.实验给出了对应于不同处理器节点数量和最小支持度时的算法响应时间,表明本算法能够很好地适应网格平台特性,且其性能和可扩展性有明显提...  相似文献   

13.
基于枚举算法的优化方法研究   总被引:1,自引:0,他引:1  
本文简要介绍了枚举算法的基本概念,提出该算法简单,结果准确、全面,但效率较低.通过研究"百钱百鸡"问题的算法及C语言实现,提出了利用数学分析实现优化枚举算法提高工作效率的方法.  相似文献   

14.
The paper studies the problem of incremental pattern mining from semi-structrued data. When a new dataset is added into the original dataset, it is difficult for existing pattern mining algorithms to incrementally update the mined results. To solve the problem, an incremental pattern mining algorithm based on the rightmost expansion technique is proposed here to improve the mining performance by utilizing the original mining results and information obtained in the previous mining process. To improve the efficiency, the algorithm adopts a pruning technique by using the frequent pattern expansion forest obtained in mining processes. Comparative experiments with different volume of initial datasets, incremental datasets and different minimum support thresholds demonstrate that the algorithm has a great improvement in the efficiency compared with that of non-incremental pattern mining algorithm.  相似文献   

15.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

16.
为了解决工业数据的序列相关性以及数据的全局和局部结构在某些异常状态下的变化问题,通过"时滞偏移"方法将动态行为纳入多流形投影(multi-manifold projections,MMP)模型,提出一种动态多流形投影算法(dynamic multi-manifold projections,DMMP)在统计过程监测中的...  相似文献   

17.
针对传统高维多目标优化问题解决方法存在解集收敛性与解集分布均匀性缺陷的问题, 提出将全局排序方法与灰色关联分析两种方法相结合, 设计一种新的全局排序高维多目标优化算法. 通过设计最小函数值母序列和个体目标函数值子序列, 利用灰色关联分析法计算其关联度, 并结合个体目标适应度计算策略, 解决解集分布不均匀的问题. 该算法不仅可提高非支配个体的选择能力, 还具有良好的收敛性. 为测试该算法的性能, 选择3种经典多目标进化算法, 在标准测试函数集DTLZ{2,4,5,6}上进行对比实验. 实验结果表明, 该算法在解决高维多目标问题时, 其收敛性与解集分布均匀性均优于其他3种算法.  相似文献   

18.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

19.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

20.
GA-SVM对上证综指走势的预测研究   总被引:1,自引:0,他引:1  
将支持向量机和遗传算法结合,建立了一种智能数据挖掘技术(GA-SVM),并用于对上证综指市场走势进行了探索.在这个混合的数据挖掘方法中,GA用于RBF参数的设定以及特征集的选择,从而智能的找到SVM的最佳参数,减少SVM特征值的复杂度,提高了SVM算法速度.SVM用于判断未来股票市场的走势,并与统计模型、时间序列模型方法、神经网络进行了对比.实验证明,GA-SVM优于其他几种方法,这种方法对于股票上涨或下跌的预测研究是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号