首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
数据流潜在无限、流动迅速、变化频繁等特点,使在数据流上实现隐私保护面临重大挑战.在阐述数据流匿名的概念及分析现有数据流匿名算法特点的基础上,提出基于聚类的数据流匿名设计思想,并给出算法实现.在真实数据集上的实验结果表明,新算法在满足匿名要求的同时能够降低概化和抑制处理带来的信息损失.  相似文献   

2.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

3.
针对目前的轨迹聚类隐私保护方法仍然存在适用性较窄、可用性较低以及难以在实际应用中实施的问题,提出了支持轨迹聚类的差分隐私保护方法,首先给出了典型轨迹聚类算法的通用框架模型及其差分隐私定义,然后根据定义设计满足差分隐私机制的二维拉普拉斯噪声,最后将直角坐标系中得到的噪声形式变换到极坐标系,并加入到原始轨迹点中以进行实际应用实现.实验结果表明,本文算法具有更好适用性,与当前的轨迹聚类隐私保护方法相比,在相同保护强度下,本文算法具有更好的聚类效果.  相似文献   

4.
已有的k-匿名方法忽视了准标识符对不同敏感属性的影响且只考虑了对元组本身的聚类,在数据发布时造成了较大的信息损失。为此,提出一种通过两次聚类实现k-匿名的隐私保护方法。给出了影响矩阵的概念,用来描述准标识符对敏感属性的影响,研究了影响矩阵聚类技术,对敏感属性影响相近的元组进行聚类,实现k-匿名效果。实验验证结果表明,该方法具有良好的隐私保护效果,相对于基本k-匿名方法,该方法具有更小的平均等价类大小和更少的运行时间。  相似文献   

5.
一种有效的基因投影聚类算法   总被引:1,自引:0,他引:1  
针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法.该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角.通过真实微阵列数据实验,证明了提出的算法具有较高的正确率.  相似文献   

6.
黄金花 《科技信息》2008,(13):254-254
本文介绍了聚类算法基本原理以及各种常用的聚类算法,并比较分析了几种典型聚类算法的优点与不足。以便于对聚类算法作进一步的研究。  相似文献   

7.
随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、隐私性及精确性等方面得到提升,需要对传统的关联规则挖掘算法进行更新和改进.在传统的Apriori算法基础上,提出了一种新的在关系数据库中挖掘关联规则的算法.该算法只需扫描一次数据库即可得到频繁项集,并通过非频繁项集来减少候选项集的生成,从而提高了算法的运算效率;此外,该算法将包含敏感数据事务做相关的处理,以达到隐藏包含敏感数据的关联规则.理论分析和实验结果表明,新算法不仅提高了关联规则挖掘的效率,而且还达到了隐藏包含敏感规则的目的.  相似文献   

8.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

9.
针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性.  相似文献   

10.
随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、隐私性及精确性等方面得到提升,需要对传统的关联规则挖掘算法进行更新和改进。在传统的Apriori算法基础上,提出了一种新的在关系数据库中挖掘关联规则的算法。该算法只需扫描一次数据库即可得到频繁项集,并通过非频繁项集来减少候选项集的生成,从而提高了算法的运算效率;此外,该算法将包含敏感数据事务做相关的处理,以达到隐藏包含敏感数据的关联规则。理论分析和实验结果表明,新算法不仅提高了关联规则挖掘的效率,而且还达到了隐藏包含敏感规则的目的。  相似文献   

11.
针对目前的轨迹聚类隐私保护方法存在适用性较窄、可用性较低及难以在实际应用中实施的问题,提出了支持轨迹聚类的差分隐私保护方法.首先给出了典型轨迹聚类算法的通用框架模型及其差分隐私定义,然后根据定义设计满足差分隐私机制的二维拉普拉斯噪声,最后将直角坐标系中得到的噪声形式变换到极坐标系,并加入到原始轨迹点中以进行实际应用实现.实验结果表明:与当前的轨迹聚类隐私保护方法相比,本文算法具有更好的适用性和聚类效果.  相似文献   

12.
针对K-Means算法对初值敏感和容易陷入局部最优的缺点,本文提出一种基于概率的随机扰动聚类中心优化算法。首先,每次迭代后重新计算聚类中心,以聚类中心为圆心向外搜索一定邻域内的点,将聚类中心以概率随机定位到邻域内的某个点上,称该点为物理中心点;之后,选定的物理中心点以一定速率向聚类中心方向移动一定距离,计算出的位置即为新的聚类中心;最后,根据欧氏距离重新划分数据集。该算法通过概率扰动方式使聚类中心不再固定为某一点,而将其中心扩大到一定区域,搜索该区域内的最优解,从而极大地避免了K-Means算法陷入局部最优的可能;并且,即使计算进程已经陷入局部最优,优化后的算法也可以通过最优区域搜索,以一定概率的机会跳出局部最优。  相似文献   

13.
针对面向聚类的数据隐私发布问题,基于密度可达邻域的概念,提出一种面向聚类的隐私保护模型PPC(r,ε,h).该模型通过要求隐藏后所有数据记录在ε内密度可达(r相关)的近邻数不小于h,以避免可能出现的近邻攻击.进一步提出密度可达安全邻域概念,对不满足模型要求的邻域,采用平移近邻的数据隐藏方法进行处理,保证发布后数据集满足模型约束.并利用邻域价值和邻域相似性的概念,对平移过程进行优化.理论分析和实验结果表明,基于PPC(r,ε,h)隐私模型设计的数据隐藏方法,能有效维持原数据集中数据点在各聚簇中的分布,且兼顾了发布后数据的聚类可用性和数据安全性.  相似文献   

14.
文章提出一种基于粒子群方法的投影寻踪聚类算法.该算法利用粒子群算法的全局寻优能力搜索投影方向,以及利用投影寻踪算法将高维数据投影到低维,从而能有效地揭示多因素复杂数据的线性和非线性结构的特点,得到较直观的聚类模式.通过两个实例,验证了算法的可行性和有效性.  相似文献   

15.
一种面向数据密集型计算环境的聚类算法   总被引:1,自引:0,他引:1  
针对数据密集型计算环境下数据具有海量、分布、异构、高速变化等特点,分析传统的基于密度的分布式聚类(Density Base Distributed Clustering,DBDC)算法,借助MapReduce编程模型,提出一种新的分布式聚类算法,采用局部和全局的方式处理海量、异构数据,解决具有以上特点的数据密集型计算环境下数据的分析挖掘问题。得出算法的复杂度为O((nlog2n)/p),实验验证在数据量与节点数变化时算法具有较高的稳定性和可伸缩性,与原算法对比该算法具有较高的准确度。  相似文献   

16.
大数据下的系统发育估计是一个组合优化问题,在有限计算时间内,现有算法很难为大量序列数据的分析提供最优解.基于前人启发式算法,提出了一种系统发育树随机聚类建树方法,可在较短时间内为系统发育过程产生的大规模序列数据提供所有具有进化意义的解及最优解,以揭示发育过程中的序列进化关系.实验结果表明,该随机聚类方法是行之有效的,对生物计算及系统发育相关领域研究具有积极意义.  相似文献   

17.
聚类算法是多元统计的一个重要分支,在理论和实际生活中都有重要的意义。本文对聚类算法的发展历程以及近年来发展的一些聚类算法进行研究。  相似文献   

18.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

19.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

20.
针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号