期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

管国权 ;王红艳《科技咨询导报》2008,(17):24-24

硬聚类算法HCM的求解结果通常是局部最优解,本文将遗传算法应用于HCM聚类算法,同时考虑到该算法实现时的效率和开销,最终提出了一种新的算法MHCM聚类算法。测试数据实验表明采用MHCM聚类算法的结果90%以上能够取得全局最优解,远远超出了采用HCM算法所取得全局最优解的次数,证明了本算法的可推广性。相似文献

2.

基于密度的改进聚类算法比较

郭文娟《甘肃科技》2017,33(1)

针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。相似文献

3.

MapReduce模型下基于R树索引的Skyline查询算法

李建伟王康平黄岚王贵参《吉林大学学报(理学版)》2016,54(4):833-838

提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势. 相似文献

4.

改进的基于层次聚类的模糊聚类算法

李玲玲方帅辛浩《合肥工业大学学报(自然科学版)》2010,33(6)

针对FCM算法的缺陷,文章提出了一种基于层次聚类的模糊聚类算法(HFCM)。该算法采用凝聚的层次聚类方法,可快速地发现高度聚集的数据区域,并对这些高密度区域进一步进行分析与合并,通过评估函数的评估,找到最优的聚类方案。试验结果表明,该算法具有较高的分类精确度和较高的排除噪声的能力。相似文献

5.

基于随机抽样和聚类特征的聚类算法 总被引：5，自引：0，他引：5

周兵沈钧毅彭勤科《西安交通大学学报》2003,37(12):1234-1237

在分析BIRCH算法不足的基础上，提出了一种基于随机抽样和聚类特征的聚类算法(CLAP)，该算法采用随机抽样技术，从数据库中抽取一部分数据进行聚类的预处理过程，这样大大降低了运行时间，CLAP通过设立索引树的叶节点的直径和聚类直径，提高了聚类的精度，并采用全局搜索和局部搜索相结合的方式，消除了输入顺序对聚类质量的影响．测试结果表明，CLAP算法不仅提高了聚类速度，而且改善了聚类质量。相似文献

6.

基于聚类的移动查询技术研究

伊莉娜王培东《科技咨询导报》2008,(2):185-186

为使移动数据库的查询技术更接近于实际应用要求，有必要进一步提高移动数据库的查询性能。本文对传统的基于代理的移动数据库体系结构进行了研究，提出了一种改进的基于代理的三层移动查绚体系结构，并采用聚类技术缓解了蜂拥问题。通过实验表明聚类技术对节省查询时间是有效的。相似文献

7.

覆盖聚类算法 总被引：9，自引：0，他引：9

赵姝张燕平张铃张媛陈传明《安徽大学学报(自然科学版)》2005,29(2):28-32

首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。相似文献

8.

基于模拟退火算法对K-means聚类算法的优化

刘寒梅张鹏《中国西部科技》2013,(6):23-24,71

K-means聚类算法是近年来数据挖掘学科的一个研究热点和重点,该算法是基于划分的聚类分析算法.目前这种算法在聚类分析中得到了广泛应用。本文将介绍K-means聚类算法的主要思想,及其优缺点。针对该算法经常陷入局部最优,以及对孤立点敏感等缺点,提出了一种基于模拟退火算法的方法对其进行优化,可以有效地防止该算法陷入局部最优的情况。相似文献

9.

聚类算法的研究

刘洋《长春师范学院学报》2012,(6):9-11

聚类算法是多元统计的一个重要分支,在理论和实际生活中都有重要的意义。本文对聚类算法的发展历程以及近年来发展的一些聚类算法进行研究。相似文献

10.

基于分层聚类的FCM算法

雷志明《科技信息》2008,(35)

为了更好地实现聚类,在分析分层聚类和FCM算法优缺点的基础上提出了一种改进的聚类算法。改进算法将分层聚类和FCM聚类算法的优点相结合,首先采用分层聚类,得到一初始聚类结果,然后应用FCM聚类算法重聚类。实验结果表明,改进算法较原传统的聚类算法,不但算法执行速度较快、效率较高,而且聚类效果也较好。相似文献

11.

一种基数可调整的轮廓查询——模糊轮廓

赵相国黄健美王国仁信俊昌《东北大学学报(自然科学版)》2009,30(12):1706-1709

针对轮廓查询的结果随着数据维度的增加而显著增加的问题,在模糊集理论的基础上,提出了模糊轮廓集的概念,量化了不同数据点对轮廓查询的贡献度.以此为基础,通过在模糊轮廓集中取不同的截集达到了准确控制查询结果数量的目的.同时,提出了有效的FSCA算法来求解任意的模糊轮廓,为用户提供δ个数据点,方便了用户的决策.实验分析的结果表明,模糊轮廓查询是一种有意义的基数可调整的新型轮廓查询,FSCA算法是有效的模糊轮廓求解算法,它们共同为用户决策提供了很好的辅助手段. 相似文献

12.

一种分布式环境下的skyline查询算法

严伟榆周丽华赵家松《云南民族大学学报(自然科学版)》2010,19(5)

skyline计算在多标准决策、数据挖掘和数据库可视化等领域具有非常重要的作用.研究了分布式环境下的skyline查询问题.提出通过合并局部skyline集合得到全局skyline集合的思想,在计算全局skyline集合时,先对局部skyline集合进行区域划分和动态编码,然后根据各个区域之间的制约关系进行数据合并.通过实验分析可知,当全局skyline集合的规模较大时,经过区域划分的算法比起直接合并的算法执行效率更好. 相似文献

13.

基于倾斜概率的有效数据聚类数学模型

李应《西南师范大学学报(自然科学版)》2014,39(9):116-120

在相似数据聚类过程中,由于数据相似性过高,造成特征冗余干扰,使数据中心很难确定.该文提出了一种基于倾斜概率的有效聚类数学模型,在计算聚类中心的过程中引入倾斜概率计算数据均值.在数据特征存在较大一致性冗余干扰时,计算分配到同一类簇的概率并建立约束,把这种概率约束运用到数据的类间相似性特征聚类中,可以有效地确定相似特征的初始聚类中心.实验证明该文模型能合理地选择出初始聚类中心,改进分类数学模型的分类效果,与k均值聚类模型相比,聚类结果更加紧致,鲁棒性更强. 相似文献

14.

基于模型诊断和skyline查询的电网故障诊断

江雪晨王大志宁一刘晓琴《东北大学学报(自然科学版)》2016,37(6):765-769

针对基于专家经验的电网故障诊断系统开发周期长,且难以诊断经验之外故障的问题,提出一种基于模型诊断和skyline查询的电网故障诊断方法.该方法根据测点分布将待诊断系统分解成若干独立子系统,利用故障输出与元件之间的因果关系建立系统模型,然后推理每个子系统的候选诊断,将实际告警信息引入到模型诊断逻辑框架中,运用skyline查询算法从候选诊断中识别故障元件.通过离线获得预备候选诊断,在线确认候选诊断的手段,缩减了诊断的时间,提高了诊断的效率,将实际告警信息引入到模型诊断的逻辑框架内,提高了诊断的有效性.仿真表明方法条理清晰,计算简便,能够有效地减少诊断时间和空间复杂度. 相似文献

15.

移动环境中的位置依赖连续轮廓查询

黄伯虎张海宾王小兵刘旭东《西安交通大学学报》2012,46(6):79-86

针对移动环境中查询点快速移动时连续、高效输出给定搜索区域数据轮廓的问题,提出一种位置依赖连续轮廓查询算法(LDCS).该算法结合数据流技术,首先使用R树快速更新查询数据,然后利用两次连续计算时搜索区域的重叠性构造被动数据流,并对新增和失效数据分别进行处理,从而连续输出轮廓.由于充分利用了已有结果,LDCS的计算量较传统算法有大幅下降.实验结果表明,LDCS特别适合计算频度要求较高的场合,与基于网格索引的算法相比,时间效率随着数据集规模的增大显著提升. 相似文献

16.

一种基于引力的聚类算法

张天伍詹自熬《河南科学》2009,27(1):70-73

将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG．该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据．实验结果表明CABG可以产生高质量的聚类结果．相似文献

17.

基于半监督的K-means聚类改进算法

李小展《东莞理工学院学报》2011,18(1):29-32

针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献

18.

基于蝙蝠算法的K均值聚类算法

王晓东张姣薛红《吉林大学学报(信息科学版)》2016,34(6):805-810

为解决传统 K-means 算法中因初始聚类中心选择不当而导致聚类结果陷入局部极值的问题, 采用蝙蝠算法搜寻 K-means 算法的初始聚类中心, 并将模拟退火的思想和基于排挤的小生境技术引入到蝙蝠算法中, 以克服原始蝙蝠算法存在后期收敛速度慢、搜索力不强等问题。同时, 通过测试函数验证了其有效性。最后利用改进后的蝙蝠算法优化 K-means 算法的初始聚类中心, 并将该改进的算法与传统的 K-means 算法的聚类结果进行了对比。实验结果表明, 改进后的算法的聚类性能比传统的 K-means 算法有很大提高。相似文献

19.

Performance Prediction for Performance-Sensitive Queries Based on Algorithmic Complexity

《清华大学学报》2013,(6):618-628

Performance predictions for database queries allow service providers to determine what resources are needed to ensure their performance. Cost-based or rule-based approaches have been proposed to optimize database query execution plans. However, Virtual Machine （VM）-based database services have little or no sharing of resources or interactions between applications hosted on shared infrastructures. Neither providers nor users have the right combination of visibility/access/expertise to perform proper tuning and provisioning. This paper presents a performance prediction model for query execution time estimates based on the query complexity for various data sizes. The user query execution time is a combination of five basic operator complexities： O（1）, O（log（n））, O（n）, O（nlog（n））, and O（n2）. Moreover, tests indicate that not all queries are equally important for performance prediction. As such, this paper illustrates a performance-sensitive query locating process on three benchmarks： RUBiS, RUBBoS, and TPC-W. A key observation is that performance-sensitive queries are only a small proportion （20%） of the application query set. Evaluation of the performance model on the TPC-W benchmark shows that the query complexity in a real life scenario has an average prediction error rate of less than 10% which demonstrates the effectiveness of this predictive model. 相似文献

20.

Efficient Processing of Skyline Group Queries over a Data Stream

《清华大学学报》2016,(1)

In this paper, we study the skyline group problem over a data stream. An object can dominate another object if it is not worse than the other object on all attributes and is better than the other object on at least one attribute. If an object cannot be dominated by any other object, it is a skyline object. The skyline group problem involves finding k-item groups that cannot be dominated by any other k-item group. Existing algorithms designed to find skyline groups can only process static data. However, data changes as a stream with time in many applications,and algorithms should be designed to support skyline group queries on dynamic data. In this paper, we propose new algorithms to find skyline groups over a data stream. We use data structures, namely a hash table, dominance graph, and matrix, to store dominance information and update results incrementally. We conduct experiments on synthetic datasets to evaluate the performance of the proposed algorithms. The experimental results show that our algorithms can efficiently find skyline groups over a data stream. 相似文献