期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

夏胜平吕小军刘建军袁振涛郁文贤《郑州大学学报(理学版)》2006,38(4):33-40

海量和高维大数据集的聚类对计算机性能提出了很高的要求.基于具有层次聚类特性的RSOM树方法提供了一种有效的手段以实现对高维大数据集的聚类索引,这种RSOM树可支持最近邻搜索且不需要对数据进行线性搜索.注意到RSOM模型具有内在的层次化、分布式结构特点,并可进行增量的训练,研究了基于高效并行集群的增量、分布式RSOM并行算法,并通过视频图像特征集实例证实了算法的可行性. 相似文献

2.

MapReduce框架下基于抽样的分布式K-Means聚类算法

杨杰明吴启龙曲朝阳杨烁阚中峰高冶《吉林大学学报(理学版)》2017,55(1):109-115

提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 相似文献

3.

分布式k-means聚类算法的改进

宋玲戚云枫齐东阳《广西大学学报(自然科学版)》2014,(5)

经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。相似文献

4.

WIDE:海量数据的聚类算法

张强赵政《天津大学学报(自然科学与工程技术版)》2006,39(7):826-831

给出了一种新的处理海量数据的聚类算法WIDE（window-density clustering algorithm）．它通过网格方法将数据之间的相互关联局部化，通过窗口技术来提高算法的效率，通过密度方法提高聚类的精度．以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想．在此基础上对算法进行了扩展，在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类；在速度方面实现了分布式并行聚类．WIDE算法能够在局域网中的多台计算机上并行工作，效率高，计算复杂度为O（N），且能够发现任意形状的聚类，对噪声不敏感．相似文献

5.

一种基于集成学习的分布式聚类算法

吉根林凌霄汉杨明《东南大学学报(自然科学版)》2007,37(4):585-588

基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性. 相似文献

6.

ID—DC：基于分布式聚类的人侵检测方法

郑苗苗吉根林《江南学院学报》2007,6(6):733-738

提出了基于分布式聚类的异常入侵检测方法ID—DC，通过对训练集进行分布式聚类产生聚簇模型，采用基于双参考点的标识算法Double—Reference标记异常簇，不需要具有类别标签的训练集且可自动确定聚簇模型的个数．实验中采用了网络入侵检测数据集KDD—CUP-99来训练模型．实验结果表明：通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击，检测率高，误警率低．相似文献

7.

ID-DC:基于分布式聚类的入侵检测方法

郑苗苗吉根林《江南大学学报(自然科学版)》2007,6(6):733-738

提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低. 相似文献

8.

一种基于密度的分布式聚类算法 总被引：1，自引：0，他引：1

郑苗苗吉根林《南京大学学报(自然科学版)》2008,44(5)

对基于密度的分布式聚类算法DBDC（density based distributed clustering）进行改进,提出了一种基于密度的分布式聚类算法DBDC＊.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC＊的效率优于DBDC,聚类效果好. 相似文献

9.

一种适用于数据仓库环境的增量聚类方法

王春才杨华民张彩虹郭威韩贵东《河北大学学报(自然科学版)》2010,30(2)

聚类分析要求较高聚类质量和快速响应能力,各行业数据仓库中的大量、高维数据对算法的效率提出了更大的挑战.CURE算法能够提供高质量聚类结果但不满足联机聚类要求.结合数据仓库数据不定期批量、增量更新的特点,提出了一种新的增量式CURE聚类算法——InCURE,利用对象的互连性和近似度,保持原算法的动态聚类特性的同时大大缩短聚类时间.5维、20维、50维的大量数据实际测试表明无论低维还是高维数据,InCURE都比CURE具有更高的效率,适合数据仓库环境下的增量式聚类分析. 相似文献

10.

基于时间衰减的分布式数据流聚类算法

陈春燕吕俊龙郭有强《太原师范学院学报(自然科学版)》2013,(2):87-90

为了发现分布式数据流环境下的微簇,针对数据流的遗忘特性,提出一种基于时间衰减的数据流聚类算法.根据衰减模型增量式的处理局部站点,将局部模型发送给中心站点.中心站点对局部站点的微簇进行合并,生成全局聚类模型.通过真实数据和仿真数据的实验表明,该算法能够得到较好的聚类质量,并且有较好的伸缩性. 相似文献