首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
针对传统l-多样性模型易形成敏感值高度相关的等价类问题,提出一种约束等价类中敏感值相关性的(s,l)-多样性模型。该模型在传统l-多样性模型的基础上,以敏感集合中非敏感属性值的分布度量敏感值的相关性,通过等价类中敏感值相关性的约束来降低高相关性敏感值产生的信息泄露。同时,使用属性值间相关性作为距离度量基准,提出一种(s,l)-多样性聚类算法(SLCA)来实现该匿名模型,以降低数据泛化过程中的信息损失。研究结果表明:SLCA算法具有较小的信息损失量与较短的运行时间,能够有效地降低等价类中敏感值的相关性,更好地防止个体敏感信息泄露。  相似文献   

2.
针对t-相近性模型实现方法信息损失大和算法执行代价高的问题,提出一种基于敏感等级划分的(l,t)-相近性模型.该模型放宽了t-相近性模型对等价类的约束,要求等价类中敏感等级的分布与数据集中敏感等级的分布间距离不大于阈值t,并使用Hellinger距离度量敏感等级分布间的距离,以避免传统EMD距离须人工设定基准距离、计算量高的问题;同时,提出了一种基于聚类的(l,t)-相近性匿名算法((l,t)-CCA),使用敏感值的自信息来度量敏感度以实现敏感属性的等级划分,并以聚类的思想形成等价类来实现(l,t)-相近性模型.实验结果表明:该算法不仅能够抵御相似性攻击,而且信息损失低,时间开销少,能够更加有效地实现数据发布中数据的可用性与隐私安全间的平衡.  相似文献   

3.
在数据发布过程中,如果对发布的敏感属性信息不进行任何保护处理而直接发布,容易遭受攻击导致隐私信息泄露.针对传统的单敏感属性隐私保护方法在多敏感属性中不能得到很好的隐私保护效果,提出了一种基于多敏感属性相关性划分的(m,l)-匿名隐私保护模型.利用信息增益法对多敏感属性的相关性进行计算并划分,降低敏感属性维度;根据(m,l)-diversity原则对敏感属性分组,保证发布的数据能防止偏斜性攻击,并且在一定程度上降低背景知识攻击的风险;采用聚类技术实现该模型,减小该模型产生的附加信息损失和隐匿率,确保发布的数据具有较高的可用性.实验结果表明,基于多敏感属性相关性划分的(p,l)-匿名隐私保护模型具有较小的附加信息损失和隐匿率,保证了发布数据的可用性.  相似文献   

4.
-多样性(I-diversity)模型采用传统基于概念层次结构的数据概化策略,在对敏感属性进行匿名保护时往往会造成不必要的信息损失。针对这一问题,将聚类技术引入数据匿名中,提出一种基于聚类的I-diversity匿名保护方法。该方法在满足I-diversity模型的约束条件下,采用基于距离的层次化聚类算法划分元组,对不同类型的准标识符使用不同的概化策略,并依据数据概化前后属性值不确定性程度的变化描述数据概化带来的信息损失。同现有的I-diversity模型相比,该方法能较好地保护用户的敏感属性,并且在一定程度上降低了概化处理带来的信息损失。  相似文献   

5.
多维数值敏感属性隐私保护数据发布方法   总被引:2,自引:0,他引:2  
为避免多维数值敏感属性数据发布中的近似猜测攻击,基于分解思想提出了一种有效的数据发布方法(l-MNSA).首先通过按敏感属性值均匀间隔分组的方法,提出针对单维数值敏感属性的l-SNSA算法;然后提出最小距离的思想,通过将敏感属性统一化并按最小距离均匀间隔分组,提出适用于多维数值敏感属性的l-MNSA算法.与以往仅针对单敏感属性的发布算法相比,该算法同时能对多维敏感属性提供较好的保护.实验结果表明,采用l-MNSA算法发布的数据,其组内最小差异与l-SNSA算法针对各维属性分别发布的结果相比,平均降低10%左右,算法时间复杂度仍为O(nlgn).该算法可以较好地均衡发布数据的安全性和可用性,是有效可行的.  相似文献   

6.
为提高大数据粗糙集挖掘能力,提出基于信息熵的粗糙集连续属性离散检验算法﹒在云计算环境下进行粗糙集连续属性大数据挖掘,采用特征空间重组方法进行粗糙集连续属性离散数据的模糊特征重构,提取粗糙集连续属性离散数据的信息熵,并得到其分布序列特征;对所提取的信息熵进行聚类分析,采用空间决策树模型,获取离散数据闭繁项关联分析度量;通过数据特征权重的决策树分布特征量化集,得到粗糙集连续属性离散数据空间重组;采用大数据挖掘方法,将离散数据空间重组的信息融合,得到优化的粗糙集和连续属性离散数据检验输出;根据粗糙集连续属性的融合结果,实现离散检验优化﹒仿真结果表明:在迭代次数为400时,收敛程度为0.265%,远远高于其它方法,证明采用该方法进行粗糙集连续属性离散检验的数据聚类性较好﹒  相似文献   

7.
核聚类算法是一种能够处理样本间差异微弱的有效聚类算法.以粗糙集理论为基础,将基于属性重要度的属性约简算法应用到核聚类算法中,提出一种新的聚类改进算法,由此可以得到高准确率低复杂度的良好结果.该算法在使用核函数对样本优化前,首先用基于属性重要度的约简算法对样本属性进行处理,同时引入信息熵来改进约简算法,从而删除冗余属性得...  相似文献   

8.
K-匿名是解决数据隐私的关键技术,成为近年来研究热点.目前对K-匿名的研究大多依赖预定义的泛化层次,泛化后的数据有很大的数据损失,并且没有考虑到匿名后的可信属性缺乏多样性导致的隐私信息泄漏.本文针对K-匿名存在的上述问题,提出了一种在K-匿名之上的(L,K)-匿名模型,将聚类的方法应用(L,K)-匿名模型上,并给出了基于聚类分析的(L,K)-匿名算法,实验显示该方法能有效的消除K-匿名后可信属性的信息泄漏,增强数据发布的安全性.  相似文献   

9.
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性.  相似文献   

10.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。  相似文献   

11.
已有的k-匿名方法忽视了准标识符对不同敏感属性的影响且只考虑了对元组本身的聚类,在数据发布时造成了较大的信息损失。为此,提出一种通过两次聚类实现k-匿名的隐私保护方法。给出了影响矩阵的概念,用来描述准标识符对敏感属性的影响,研究了影响矩阵聚类技术,对敏感属性影响相近的元组进行聚类,实现k-匿名效果。实验验证结果表明,该方法具有良好的隐私保护效果,相对于基本k-匿名方法,该方法具有更小的平均等价类大小和更少的运行时间。  相似文献   

12.
面向相关多敏感属性的隐私保护方法   总被引:1,自引:0,他引:1  
将现有的敏感属性隐私保护方法直接应用于相关多敏感属性的隐私保护中会导致隐私数据的泄漏。本文借鉴有损连接对隐私数据进行保护的思想,对表中的记录进行聚类,保证了关系表中的记录按敏感等级划分。其次,对已划分的记录按照频率比较策略进行分组,提出了一种基于聚类的相关多敏感属性数据分组算法。实验结果表明该算法可以有效地防止隐私泄露,增强了数据发布的安全性。  相似文献   

13.
通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好.  相似文献   

14.
针对在识别框架不确定时基本概率分配(BBA)生成困难的问题,提出一种基于聚类特征的基本概率分配生成方法,以减弱对样本长度的依赖性,并分析2种情况下的BBA生成。在框架未知时,通过聚类分析获得各个类别的聚类特征,建立样本属性的聚类特征区间模型;在框架已知时,获取聚类特征,建立样本属性的聚类特征区间模型;然后用各个区间模型之间的距离表示样本属性之间的差异,在此基础上建立了一种相似度的度量方法;最后对相似度进行归一化得到BBA。采用Iris数据集和Wine数据集的实验结果表明:所提方法对样本长度敏感程度低,对Wine数据集的一个类的分类结果达到100%。将该方法应用于某煤化工企业压缩机组子系统状态监测信息数据集,实现了监测信息状态的识别。  相似文献   

15.
在属性均值聚类(AMC)与支持向量机(SVM)的基础上,提出了一个新的模式分类算法——基于(属性)聚类的属性支持向量机算法(AMC-ASVM)。主要思想是利用属性均值聚类网络得到的具有概率信息(权重)的样本,来训练属性支持向量机,从而得到分类器。这种方法结合了属性聚类的稳定性与属性支持向量机可以利用加权样本的优点,适合处理具有强噪声的数据。另外,该方法也可以看作是堆近邻分类法的自然推广。在实验部分,将其用于结肠癌基因表达数据的处理。实验结果显示了AMC-ASVM在一定程度上优于最近邻,Boosting,堆近邻,SVM等方法。  相似文献   

16.
在属性均值聚类(AMC)与支持向量机(SVM)的基础上,提出了一个新的模式分类算法——基于(属性)聚类的属性支持向量机算法(AMC-ASVM)。主要思想是利用属性均值聚类网络得到的具有概率信息(权重)的样本,来训练属性支持向量机,从而得到分类器。这种方法结合了属性聚类的稳定性与属性支持向量机可以利用加权样本的优点,适合处理具有强噪声的数据。另外,该方法也可以看作是堆近邻分类法的自然推广。在实验部分,将其用于结肠癌基因表达数据的处理。实验结果显示了AMC-ASVM在一定程度上优于最近邻, Boosting, 堆近邻, SVM等方法。  相似文献   

17.
本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖.  相似文献   

18.
提出了一种数据流概率密度估计方法,在此基础上,经计算得到整个数据集在低维空间投影的信息熵,基于该信息熵实现了一种新的高维数据流的子空间聚类算法EPStream.实验表明,与传统的算法相比,该算法在聚类精度和时间方面都有所提高.  相似文献   

19.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

20.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号