共查询到20条相似文献,搜索用时 62 毫秒
1.
传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术的研究重点之一就是如何从海量数据中高效率地获取知识。结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率。因此,提出一种聚类算法,主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合。 相似文献
2.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。 相似文献
3.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。 相似文献
4.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。 相似文献
5.
在数据挖掘领域,聚类是对数据初始的处理。动态系统中,由于经常要增加一些新的数据,如果每次对新增的数据都重新聚类,这样就既浪费时间又浪费资源。首先介绍了聚类的基本概念和聚类的分类,在此基础上提出的一种基于特征向量的聚类算法,它只对新增的数据聚类,这样就会节省大量的资源和时间。通过实验,在动态系统中对新增的数据用该增量聚类算法和重新聚类的算法相比较,最后得出结论,该增量聚类算法是可行的。 相似文献
6.
7.
聚类分析要求较高聚类质量和快速响应能力,各行业数据仓库中的大量、高维数据对算法的效率提出了更大的挑战.CURE算法能够提供高质量聚类结果但不满足联机聚类要求.结合数据仓库数据不定期批量、增量更新的特点,提出了一种新的增量式CURE聚类算法——InCURE,利用对象的互连性和近似度,保持原算法的动态聚类特性的同时大大缩短聚类时间.5维、20维、50维的大量数据实际测试表明无论低维还是高维数据,InCURE都比CURE具有更高的效率,适合数据仓库环境下的增量式聚类分析. 相似文献
8.
张横云 《西南民族学院学报(自然科学版)》2009,35(3)
新的基于网格聚类算法(GCAB)利用网格处理技术对数据进行了预处理, 并引进了网格密度阈值处理和网格中心点两种技术. 实验表明, GCAB算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点, 而且具有较高聚类速度. 相似文献
9.
增量算法的要求是聚类特征一般是可加的、非迭代的。文中提出了一种基于密度的网格聚类算法GDCLUS,并在此基础上提出了增量式算法IGDCLUS,它可发现任意形状的聚类,具有高效、易实现的特点,适用于数据库周期性地增量环境下的数据批量更新。 相似文献
10.
分析了典型的聚类算法及其适用范围,针对其处理Web点击流数据的不足,提出了一种用于Web点击流的增量挖掘的聚类算法WCSCluster,给出了相关定义及存储结构,并用实例说明了算法的运行过程.最后对比同类算法给出实验结果.实验结果表明该算法具有良好的性能,能够发现更优的簇. 相似文献
11.
CHEN Yunkai LU Zhengding LI Ruixuan LI Yuhua SUN Xiaolin 《武汉大学学报:自然科学英文版》2006,11(5):1076-1080
Considering the constantly increasing of data in large databases such as wire transfer database, incremental clustering algorithms play a more and more important role in Data Mining (DM). However, Few of the traditional clustering algorithms can not only handle the categorical data, but also explain its output clearly. Based on the idea of dynamic clustering, an incremental conceptive clustering algorithm is proposed in this paper. Which introduces the Semantic Core Tree (SCT) to deal with large volume of categorical wire transfer data for the detecting money laundering. In addition, the rule generation algorithm is presented here to express the clustering result by the format of knowledge. When we apply this idea in financial data mining, the efficiency of searching the characters of money laundering data will be improved. 相似文献
12.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度. 相似文献
13.
14.
CHEN Yunkai MAI Quanwe LU Zhengding 《武汉大学学报:自然科学英文版》2006,11(5):1352-1356
Effective link analysis techniques are needed to help law enforcement and intelligence agencies fight money laundering. This paper presents a link analysis technique that uses a modified shortest-path algorithms to identify the strongest association paths between entities in a money laundering network. Based on two-tree Dijkstra and Priority'First-Search (PFS) algorithm, a modified algorithm is presented. To apply the algorithm, a network representation transformation is made first. 相似文献
15.
在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K—means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K—means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法. 相似文献
16.
随着我国对外经贸往来的频繁和多样化及我国即将成为WTO的新成员国,洗钱犯罪的渗透在所难免,它将严重地破坏我国的经济安全和金融体制的稳定,本文以目前洗钱犯罪分子的洗钱方式阐述洗钱犯罪的现状,进而提出防治洗钱犯罪的对策。 相似文献
17.
FENG Zhonghui SHEN Junyi BAO Junpeng 《武汉大学学报:自然科学英文版》2006,11(5):1340-1344
0 IntroductionText clusteringis the process of grouping the documentsinto the classes or clusters so that documents within acluster have high si milarityin comparisonto one another ,butare very dissi milar to documents in other clusters .In applica-tions ,the document is always represented by vector spacemodel(VSM) in which each document is represented as a vec-tor and each unique termis of one di mension of this vector .Then,documents are clustered bycalculating distance or si mi-larity[1], … 相似文献
18.
一种改进的模糊聚类算法 总被引:10,自引:0,他引:10
针对现有聚类算法在参数输入、停机条件等方面存在诸多人为控制因素的问题,采用信息熵理论使聚类标准客观化,同时结合模糊聚类的思想,以隶属度作为信息熵计算的基础,并采用谱系的方法确定聚类数目,从而改进模糊聚类算法.研究表明,提出的基于信息熵的算法能够比较客观、科学地反映实际聚类情况. 相似文献
19.
改进模糊聚类算法及其在入侵检测中的应用 总被引:1,自引:0,他引:1
针对将数据集隶属度概率和为1的条件用于模糊性事件时,影响聚类的正确率的情况,在不确定理论的基础上,研究了数据隶属度问题,提出一种新的基于隶属关系不确定的可能性改进模糊聚类算法.该算法在迭代过程中将聚类的可能隶属度与不确定性隶属度引入到目标函数中,使得样本中的元素不局限于仅属于一个聚类,与现有的聚类算法相比具有更好的聚类结果.通过在KDDCUP99数据集上实验,验证了该算法在入侵检测中的检测率为95.8%, 分别高于K-均值算法的检测率(60.4%)和FCM算法的检测率(64.6%). 相似文献
20.
基于蚁群聚类的智能优化算法及应用 总被引:1,自引:0,他引:1
为了解决数据挖掘问题中离散优化问题,提高全局的优化能力,在研究基本蚁群聚类模型的基础上,通过改进,提出了一种新的蚁群聚类组合算法,将此算法应用于银行信用卡客户的消费行为分析,通过数据测试和性能分析,证明这种算法在解决离散空间问题上表现了良好的性能。该结果对银行制定市场策略上提供了良好的参考价值。 相似文献