共查询到20条相似文献,搜索用时 68 毫秒
1.
传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术的研究重点之一就是如何从海量数据中高效率地获取知识。结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率。因此,提出一种聚类算法,主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合。 相似文献
2.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。 相似文献
3.
为了加快传统聚类方法的计算速度,提高实际工作的效率,在传统层次聚类算法基础上,探讨了一种基于距离的增量聚类算法,并应用于粮食智能决策支持系统中。算法在保持层次聚类优点的基础上,利用旧的聚类结果提高聚类速度,根据用户需要在聚类精度和聚类速度方面选取一个适当的平衡点,有效地提高了聚类分析的效率。由此得出结论:可以利用旧的历史数据提高分析效率,缩短实际业务中的统计计算时间。 相似文献
4.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。 相似文献
5.
在数据挖掘领域,聚类是对数据初始的处理。动态系统中,由于经常要增加一些新的数据,如果每次对新增的数据都重新聚类,这样就既浪费时间又浪费资源。首先介绍了聚类的基本概念和聚类的分类,在此基础上提出的一种基于特征向量的聚类算法,它只对新增的数据聚类,这样就会节省大量的资源和时间。通过实验,在动态系统中对新增的数据用该增量聚类算法和重新聚类的算法相比较,最后得出结论,该增量聚类算法是可行的。 相似文献
6.
7.
聚类分析要求较高聚类质量和快速响应能力,各行业数据仓库中的大量、高维数据对算法的效率提出了更大的挑战.CURE算法能够提供高质量聚类结果但不满足联机聚类要求.结合数据仓库数据不定期批量、增量更新的特点,提出了一种新的增量式CURE聚类算法——InCURE,利用对象的互连性和近似度,保持原算法的动态聚类特性的同时大大缩短聚类时间.5维、20维、50维的大量数据实际测试表明无论低维还是高维数据,InCURE都比CURE具有更高的效率,适合数据仓库环境下的增量式聚类分析. 相似文献
8.
张横云 《西南民族学院学报(自然科学版)》2009,35(3)
新的基于网格聚类算法(GCAB)利用网格处理技术对数据进行了预处理, 并引进了网格密度阈值处理和网格中心点两种技术. 实验表明, GCAB算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点, 而且具有较高聚类速度. 相似文献
9.
增量算法的要求是聚类特征一般是可加的、非迭代的。文中提出了一种基于密度的网格聚类算法GDCLUS,并在此基础上提出了增量式算法IGDCLUS,它可发现任意形状的聚类,具有高效、易实现的特点,适用于数据库周期性地增量环境下的数据批量更新。 相似文献
10.
分析了典型的聚类算法及其适用范围,针对其处理Web点击流数据的不足,提出了一种用于Web点击流的增量挖掘的聚类算法WCSCluster,给出了相关定义及存储结构,并用实例说明了算法的运行过程.最后对比同类算法给出实验结果.实验结果表明该算法具有良好的性能,能够发现更优的簇. 相似文献
11.
CHEN Yunkai LU Zhengding LI Ruixuan LI Yuhua SUN Xiaolin 《武汉大学学报:自然科学英文版》2006,11(5):1076-1080
Considering the constantly increasing of data in large databases such as wire transfer database, incremental clustering algorithms play a more and more important role in Data Mining (DM). However, Few of the traditional clustering algorithms can not only handle the categorical data, but also explain its output clearly. Based on the idea of dynamic clustering, an incremental conceptive clustering algorithm is proposed in this paper. Which introduces the Semantic Core Tree (SCT) to deal with large volume of categorical wire transfer data for the detecting money laundering. In addition, the rule generation algorithm is presented here to express the clustering result by the format of knowledge. When we apply this idea in financial data mining, the efficiency of searching the characters of money laundering data will be improved. 相似文献
12.
13.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度. 相似文献
14.
CHEN Yunkai MAI Quanwe LU Zhengding 《武汉大学学报:自然科学英文版》2006,11(5):1352-1356
Effective link analysis techniques are needed to help law enforcement and intelligence agencies fight money laundering. This paper presents a link analysis technique that uses a modified shortest-path algorithms to identify the strongest association paths between entities in a money laundering network. Based on two-tree Dijkstra and Priority'First-Search (PFS) algorithm, a modified algorithm is presented. To apply the algorithm, a network representation transformation is made first. 相似文献
15.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现. 相似文献
16.
一种新的密度加权粗糙K-均值聚类算法 总被引:1,自引:0,他引:1
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。 相似文献
17.
在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K—means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K—means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法. 相似文献
18.
随着我国对外经贸往来的频繁和多样化及我国即将成为WTO的新成员国,洗钱犯罪的渗透在所难免,它将严重地破坏我国的经济安全和金融体制的稳定,本文以目前洗钱犯罪分子的洗钱方式阐述洗钱犯罪的现状,进而提出防治洗钱犯罪的对策。 相似文献
19.
应用映射簇的概念来明确多维数据中簇与维度的关系,将聚类问题转化为映射簇问题;将采样技术与PAM相结合,根据曼哈坦距离计算数据对象之间和簇之间的距离实现聚类分析.此外,给出了相应的具体算法,并将该算法与k-中心点算法进行了试验比较.试验结果证明了该算法的有效性. 相似文献
20.
我国现行反“洗钱”刑事立法有需要继续完善之处:洗钱罪的立法相对滞后,影响了对洗钱犯罪的打击;“洗钱”范围限定的过于狭窄,不利于对洗钱犯罪的惩处;与洗钱罪相关的法律规定不配套,惩治洗钱犯罪的效果不明显。本文建议对洗钱罪立法在以下方面加以改进:一是对洗钱罪进行修改,使其具有超前性;二是合理界定洗钱罪的行为方式,严密刑事法网;三是完善配套法律制度。 相似文献